新選擇?開放媒體聯(lián)盟最近推出全新沉浸式音頻格式IAMF

早在兩三年前,流媒體巨頭Netflix宣布在電視上推出AV1編解碼器,當(dāng)時(shí),大家都好奇什么是AV1?AV1是一種先進(jìn)的編碼格式,與其他編解碼器進(jìn)行了比較可發(fā)現(xiàn),AV1的壓縮效率有了明顯的提高。從數(shù)字時(shí)代的第一個(gè)實(shí)用的視頻編碼標(biāo)準(zhǔn)H.261,到MPEG-2 / H.262成為DVD和標(biāo)清數(shù)字電視的標(biāo)準(zhǔn)視頻格式,視頻編碼標(biāo)準(zhǔn)一直推動(dòng)著電視高清化和數(shù)字媒體技術(shù)的發(fā)展。2013年,HEVC(High Efficiency Video Coding)視頻編碼標(biāo)準(zhǔn)的出現(xiàn),相較于之前的AVC,視頻壓縮效率提高25-50%,帶寬需求更低。

Netflix是AV1編碼的早期測(cè)試用戶之一,用戶在使用Netflix App開啟節(jié)省流量功能時(shí),部分節(jié)目將會(huì)啟用AV1編碼進(jìn)行流傳輸,相比起原來使用的VP9,它可以節(jié)約不少的流量。但說到底,AV1編碼到底是誰開發(fā)出來的?AV1編碼是由開放媒體聯(lián)盟(Alliance for Open Media-AOMedia)組織開發(fā)的,AOMedia組織的目的是為互聯(lián)網(wǎng)提供開放、無使用費(fèi)用的技術(shù),成員有亞馬遜、思科、Google、Intel、微軟、Mozilla和Netflix。該聯(lián)盟旨在通過制定全新、開放、免版權(quán)費(fèi)的視頻編碼標(biāo)準(zhǔn)和視頻格式,為下一代多媒體體驗(yàn)創(chuàng)造新的機(jī)遇,AV1是開放媒體聯(lián)盟AOMedia開發(fā)的第一代視頻編碼標(biāo)準(zhǔn)。

回顧AOMedia和AV1

開放媒體聯(lián)盟(AOMedia)已經(jīng)有八年的歷史了,它成立于2015年,是由谷歌發(fā)起的下一代編解碼器AV1的標(biāo)準(zhǔn)聯(lián)盟,Chair是AOmedia的現(xiàn)任副總裁。

AOMedia成立的意義在于,通過制定全新、開放、免版權(quán)費(fèi)的視頻編碼標(biāo)準(zhǔn)和視頻格式,為下一代多媒體體驗(yàn)創(chuàng)造新的機(jī)遇。作為VP9視頻編碼的繼任者,取代需要專利的HEVC視頻編碼。

2018年3月28日,AOMedia在官網(wǎng)上發(fā)布AV1定稿的消息,并開放了相關(guān)規(guī)格和參考代碼,由此,掀起了一個(gè)新的時(shí)代。

顯而易見的是,AV1的硬件解碼器密集發(fā)布、AV1軟件編碼器的開發(fā)和持續(xù)優(yōu)化以及多個(gè)視頻播放平臺(tái)陸續(xù)對(duì)AV1的支持,讓AV1的生態(tài)發(fā)展繁榮起來。2020年以來,AV1硬件生態(tài)得到顯著突破,加入了AV1硬件解碼器支持行列的企業(yè)有英特爾、英偉達(dá)等。也正是有了硬件支持,AV1編碼才算是真正擁有廣泛應(yīng)用的基礎(chǔ)。硬件生態(tài)之外,就是YouTube、Bilibili等視頻內(nèi)容公司來坐陣,得益于此,AV1視頻的內(nèi)容量不斷增加

AOMedia已推出全新沉浸式音頻格式IAMF

不久前,AOMedia發(fā)布了旗下首個(gè)沉浸式音頻規(guī)范IAMF,可以攜帶回放時(shí)間渲染算法和音頻混音的信息,而且和旗下的AV1視頻標(biāo)準(zhǔn)一樣為免版稅。

IAMF全稱為“Immersive Audio Model and Formats”,指沉浸式音頻模型和格式。IAMF是開源的,具有垂直聲道、基于人工智能的場(chǎng)景分析以及根據(jù)聆聽偏好靈活定制內(nèi)容音頻等功能,該格式可用于流媒體、游戲、虛擬現(xiàn)實(shí)和音樂電臺(tái)。

據(jù)介紹,盡管3D音頻具有諸多優(yōu)勢(shì),但是受限于技術(shù),長(zhǎng)久以來它一直難以被應(yīng)用于家用音頻設(shè)備中。工程師表示,當(dāng)前來自影音內(nèi)容的3D音頻信息無法被電視音箱或條形音箱(Soundbar)等家用音頻系統(tǒng)正確解讀,導(dǎo)致最終呈現(xiàn)出來的音頻體驗(yàn)有限。

為此,AOMedia開發(fā)出了一種音頻解決方案。官方表示,IAMF是開放媒體聯(lián)盟采用的首個(gè)基于開放源碼的音頻技術(shù)標(biāo)準(zhǔn),這意味著整個(gè)行業(yè)的企業(yè)或個(gè)人創(chuàng)作者都可采用這項(xiàng)技術(shù)并擴(kuò)大使用范圍。官方稱,若設(shè)備制造商可以讀取3D音頻數(shù)據(jù),便可調(diào)整音頻設(shè)備中的聲音,從而通過家中的標(biāo)準(zhǔn)電視揚(yáng)聲器或音箱,也可以獲得“身臨其境”的音頻體驗(yàn)。

IAMF三大特點(diǎn)

1、垂直表達(dá)聲音的能力

之前的開源音頻編解碼器僅支持水平聲音表達(dá)。借助IAMF技術(shù),音頻現(xiàn)在可以垂直表達(dá),從而使聲音變得越來越多向。研究人員Nam解釋說:“IAMF允許聽眾聽到前方、后方或兩側(cè)以及上方或下方的音頻,從而使聲音更加真實(shí),因此,當(dāng)IAMF技術(shù)應(yīng)用于家庭電視音箱和條形音箱時(shí),聽眾可以在家里的電視上聽到鳥兒從頭頂飛過的聲音?!?/p>

2、基于AI的場(chǎng)景分析和3D音頻效果

IAMF利用人工智能和深度學(xué)習(xí)技術(shù)來分析場(chǎng)景并強(qiáng)調(diào)內(nèi)容的某些方面——調(diào)整音頻電平以在整個(gè)觀看體驗(yàn)中增強(qiáng)聲音。在電視和電影中,某些場(chǎng)景的配樂或背景音樂是主要焦點(diǎn),IAMF將平衡這些情況下的聲音。同樣,當(dāng)有角色對(duì)話時(shí),該技術(shù)會(huì)微調(diào)音頻,讓聽眾能夠?qū)W⒂趯?duì)話。此外,即使設(shè)備環(huán)境發(fā)生變化,IAMF技術(shù)也能提供最佳聲音。通過根據(jù)設(shè)備環(huán)境調(diào)整場(chǎng)景分析音頻數(shù)據(jù),IAMF技術(shù)使聽眾能夠在標(biāo)準(zhǔn)家用電視上享受內(nèi)容的原始音質(zhì)。

3、高度定制的音頻

通過IAMF技術(shù),用戶將能夠根據(jù)自己的喜好自由調(diào)節(jié)聲音。無論觀眾想要放大動(dòng)作場(chǎng)景的音效還是增強(qiáng)對(duì)話,IAMF都可以讓他們靈活地定制內(nèi)容音頻,以獲得更加個(gè)性化的體驗(yàn)。據(jù)此,研究團(tuán)隊(duì)目前正在開發(fā)IAMF技術(shù)的高級(jí)版本,該技術(shù)可應(yīng)用于移動(dòng)設(shè)備、元宇宙、視頻游戲等不同領(lǐng)域。鑒于IAMF的成功,研究團(tuán)隊(duì)有動(dòng)力為消費(fèi)者創(chuàng)造更好的音頻技術(shù)。每個(gè)團(tuán)隊(duì)成員都分享了他們對(duì)3D音頻未來的渴望。

有何亮點(diǎn)

目前,AOMedia的成員中還包括Amazon、Meta、微軟、Netflix、騰訊、oppo、Vimeo等內(nèi)容平臺(tái)方,這些平臺(tái)的選擇將很大程度決定IAMF的命運(yùn)。此前,AV1的成功在于AOMedia把多媒體各個(gè)關(guān)鍵環(huán)節(jié)的企業(yè)拉到了一起。如今IAMF的出現(xiàn)會(huì)有何亮點(diǎn)?

首先,適用于所有設(shè)備的空間音頻,IAMF可以將基于通道和基于場(chǎng)景的全景聲空間音頻演示無縫傳送到包括耳機(jī)、移動(dòng)電話、電視機(jī)、家庭影院和網(wǎng)絡(luò)在內(nèi)的各種設(shè)備上。這種多功能性確保在各個(gè)平臺(tái)上提供一致的高質(zhì)量音頻體驗(yàn)。

其次,靈活的音頻傳輸,IAMF提供了一種靈活的方法,可以將不同類型的音頻元素傳輸?shù)浇K端設(shè)備上。無論是將3.1.2通道音頻與立體聲音頻相結(jié)合,IAMF都可以實(shí)現(xiàn)。IAMF提供了一種信號(hào)渲染算法(例如EAR和BEAR)的方式,以便在音箱布局和耳機(jī)中播放。

第三,AI驅(qū)動(dòng),IAMF利用人工智能和深度學(xué)習(xí)技術(shù)來分析場(chǎng)景,并突出內(nèi)容的某些方面,調(diào)整音頻水平以增強(qiáng)整個(gè)觀看體驗(yàn)中的聲音效果。使用IAMF技術(shù),用戶將能夠根據(jù)自己的喜好自由調(diào)整聲音。無論觀眾想要增強(qiáng)動(dòng)作場(chǎng)景的音效還是增強(qiáng)對(duì)話的清晰度,IAMF都為他們提供了自定義內(nèi)容音頻的靈活性,以實(shí)現(xiàn)更個(gè)性化的體驗(yàn)。

最后,創(chuàng)作者友好,創(chuàng)作者可以使用現(xiàn)有的開源插件,如EAR Production Suite,開始創(chuàng)建符合IAMF規(guī)范的沉浸式音頻內(nèi)容,該插件包括多揚(yáng)聲器布局和雙耳監(jiān)控的渲染器。IAMF能夠攜帶并包含多個(gè)音頻混音配置,使創(chuàng)作者和用戶能夠根據(jù)不同的播放偏好進(jìn)行可控的響度調(diào)整。在不久的將來,AOMedia開源參考軟件將添加一種IAMF編碼工具,用于將各種音頻混音壓縮為IAMF。

從AV1開始,AOMedia就在用開放來對(duì)抗老牌的標(biāo)準(zhǔn)組織ITU與ISO/IEC的HEVC、VVC等標(biāo)準(zhǔn)。目前,AV1已經(jīng)成為主流視頻平臺(tái)的主力標(biāo)準(zhǔn),包括Netflix、Meta、蘋果等都在持續(xù)擴(kuò)大AV1的應(yīng)用部署。同樣,IAMF也自然成為對(duì)抗商業(yè)沉浸式音頻方案的主力。

目前,業(yè)界影響力最大的沉浸式音頻解決方案是杜比(Dolby Atmos),蘋果就采用了Dolby Atmos作為自身沉浸式音頻的解決方案??紤]到杜比在多媒體生產(chǎn)與消費(fèi)領(lǐng)域擁有全方位的滲透,蘋果選擇杜比是順其自然的。此外,全景聲科技也是沉浸式音頻主要的解決方案商。

競(jìng)爭(zhēng)性如何

IAMF是開放媒體聯(lián)盟采用的首個(gè)基于開放源碼的音頻技術(shù)標(biāo)準(zhǔn),這意味著整個(gè)行業(yè)的企業(yè)或個(gè)人創(chuàng)作者都可采用這項(xiàng)技術(shù)并擴(kuò)大使用范圍。拋開與其他視頻編碼格式的技術(shù)優(yōu)劣對(duì)比,IAMF打上免版稅的標(biāo)簽,已足夠讓它引人注目。據(jù)介紹,AOMedia對(duì)于聯(lián)盟的成員只提出了兩項(xiàng)義務(wù):一是,對(duì)聯(lián)盟開發(fā)的每一項(xiàng)技術(shù)承諾免版稅的專利許可。但這并不意味著聯(lián)盟成員放棄了收取專利費(fèi)的權(quán)利。如果某成員同時(shí)加入免版稅的AV1和收費(fèi)的HEVC,對(duì)AV1免費(fèi)授權(quán),仍可以根據(jù)HEVC的標(biāo)準(zhǔn)收費(fèi)。二是,繳納會(huì)員費(fèi),用于聘請(qǐng)負(fù)責(zé)專利評(píng)估的律師,審查加入聯(lián)盟的成員的專利。成立以來,AOMedia的成員基本上都是互聯(lián)網(wǎng)科技領(lǐng)域的頭部企業(yè)。目前,已有50多家企業(yè)成為聯(lián)盟成員。其中,華為、騰訊等中國(guó)公司是聯(lián)盟的創(chuàng)始成員。