大腦非常神奇。只需要兩只耳朵和一些腦部周圍的軟骨,就可以僅通過聲音線索準確地在 3D 空間中定位一個物體。可以聽聽看周圍的聲音。認真的,停下來聽聽周圍的聲音。即使那些音源完全不在我們的視線內,應該也可以大概知道音源的位置吧?這就是聲音的定位效果。這是一個非常厲害的能力,盡管大多數人都認為這是理所當然的,然而正是這種能力在生活的各個方面中幫助我們完成一系列活動,比如安全地過馬路,不被兇狠的狗傷害,當然也包括創造游戲的沉浸效果。
讓我們來理一理
在現實生活中我們擁有五感。這五感分別是觸覺、味覺、嗅覺、視覺和聽覺;但是呢,在 VR 的游戲世界里,只有兩種感覺能被我們自由利用,這兩感就是視覺和聽覺。
從某些角度說呢,這樣反而比較好,既然現在只有兩種感覺可以被利用,那制作一個真正的沉浸式游戲就意味著將這兩感運用到極致。簡單來說就是需要高質量的 3D 圖像和 3D 音效。
盡管圖形領域近幾年一直在持續發展提升,PC 端音效的發展史看上去似乎就顯得特別混亂,有層出不窮的新發明,也有停滯不前的時期,甚至也有徹徹底底的退步。然而,隨著 VR 產品的問世和不斷發展,真正的 3D 音效似乎再一次崛起了。這一次他們從過去層出不窮的新發明中吸取了教訓,VR 要將沉浸式音效體驗推向一個前所未有的巔峰。
音效急需復蘇
3D 音效病了。正確執行的 3D 音效還是非常炫酷的,但是在近幾十年里,3D 音效的整體質量都不容樂觀。毫不夸張地說,想要明白為什么 VR 能夠復興 3D 音效,必須了解 3D 音效究竟為什么需要復蘇。
3D 音效利用的是空間坐標軸內每個聲音和聽者的坐標位置,然而大多數現代游戲都將聲音界定為水平上擴展,但是縱向上幾乎沒有高度和距離感。這就意味著我們界定的聲音對于聽者而言就像是一個靜止的呼啦圈,僅僅能提供一種極弱的偽 3D 效果。
音頻發展史
從某些角度來看,音效已經在過去幾十年中有了突飛猛進的變化,尤其是從保真度和信噪比的角度來看。從托馬斯·愛迪生在1800 年代末期第一次通過留聲機回放了一段聲音以來,我們已經在音頻領域發展了很多。然而,盡管在保真度和預錄方面一直在持續進步,3D 界的實時音效建模卻有些差強人意。

那么,在游戲之中創造出優秀的 3D 音效到底有多難呢?為什么我的游戲里沒有 3D 音效呢?高保真音效的重現其實并不難,但是要重現一個 3D 空間中的動態行為確實是一件很難的事情。
空間障礙
首先,我們先預錄一個音效作為樣本。它可以是僵尸的呻吟,可以是開槍的聲音,也可以是你朋友在雪地里的腳步聲。無論這個音效是什么,它肯定具備一個音源和一個聽者。
無論是音源還是聽者,都需要在 3D 空間中占有一個位置,這個過程被稱之為空間定位。本質上來說呢,這就意味著音源和聽者都有一個完整、動態的 xyz軸坐標,從左到右,從上到下,從前到后。隨著他們位置的變化,預錄聲音樣本也必須隨著位置變化而變化。也有專門的術語來形容從左到右,從前到后的關系,叫方位角,而從上到下的關系則稱為海拔,此外還有距離。盡管空間定位對于聲音的沉浸效果而言非常重要,這也僅僅只是冰山一角。在聲音到達聽者的位置之前,它需要在空間里沿著彎曲復雜的路徑里行進一段距離才行。
就像光一樣,聲音實際上很少沿直線從點 A 到點 B,取決于周邊環境,它們在穿梭的過程中可能經歷成千上萬的路徑變化。光可以被反射,聲音也可以被反射,反射又可細分為早反射和遲反射;也可以被吸收;甚至可以被完全隔絕,如聲音封閉。在一個空間內的聲音也可以產生回聲,這些都取決于聲音在傳播過程中的路徑。將這些環境因素合在一起,就是人們常說的聲音氛圍。
由于這些環境因素對音波在傳播過程中的影響,也大大加強了計算機處理這種影響的難度。舉個不恰當的例子,這大概就像是在你的游戲中加入另外一個物理引擎,比如聲波追蹤系統之類的,這也是硬件加速音效常用且實用的一個借口。所以時至今日,大多數游戲仍然沒有將空間定位或者聲音氛圍開發到極致。
Aureal
想要把這一切環境因素都放到你的腦邊實在有點難,所以不妨現在戴上一副耳機然后聽聽看這個。這是一個在 1990 年代末誕生的即時 3D 音效科技。沒錯,大概 20 年前的科技就已經能創造出富有沉浸感、栩栩如生、有方位感的 3D 音效。這項技術被稱為A3D 2.0,它可以實時實現以上提到的大多數的聲音效果。而這項技術的擁有者正是 Aureal。

這項技術很大程度上依賴于頭部相關傳遞函數以及用來計算 3D 音源如何進入人腦數學算法,這種算法還需要考慮耳朵和上半身身形。這能在本質上幫助我們復制聲音線索,以便我們準確定位音源,或者將音源局限在某塊區域。我需要再一次提醒大家,這項技術在上世紀 90 年代末期就已經實現了。
說了這么多,如果你聽了上述那個鏈接,覺得自己的耳朵被欺騙了,可以理解!這是非常正常的感受。可是如果這項技術那么多年以前就已經存在了,為什么如今游戲的音效很多都還沒這個強呢?原因歸納起來就兩個字,競爭。
競爭
理論上來講競爭是一件好事,可以讓產品質量越來越高,就好比跑步比賽中別人就快追上你了,你就決定加速一樣。然而不幸的是,競爭也可能產生“劣幣驅逐良幣”的負面效果,比如跑步比賽中你就快追上別人了,結果他把你推倒了。有時候市場競爭真的就是這個樣子。
Aureal 是史上最早開拓 3D 音效領域的公司之一。即使很保守地評價,他們家的音效科技也是非常出色的,尤其是考慮到他們在上世紀 90 年代末就已經達到那種水平。可是就在隨后,Aureal 的最大競爭者 Creative起訴 Aureal 侵犯專利權。盡管人們普遍認為 Aureal 的音頻技術比 Creative 的要更加優秀一些,這場官司卻耗費了 Aureal 大量財力,以至于無法繼續運作下去。
總而言之,這兩家公司并沒有友好競爭,而音頻技術也只能成為這場惡性競爭中的陪葬品。可以說這場惡性競爭不僅僅阻礙了 3D 音效的發展,更增加了消費者們的開銷,最可惡的是價格高了產品質量反而變得比以前更糟糕。
在被稱為 3D 音效的黃金年代的那段日子里,Creative 也繼續創新,然而它們的創新大部分是基于 Microsoft 的核心技術DirectSound和 DirectSound3D。
前任
首先呢,我們先來弄明白一個常用的俗名,你肯定經常聽到DirectX這名字,一般都是在描述某些很酷炫的圖形特征時會被用到。盡管 DirectX 經常被人們與 3D 圖形聯系在一起,但實際上它是由大量多媒體應用程序編程接口構成的,簡單地說就是相當于有好幾級軟件,將功能強大的軟件與不那么強大的連接在一起運轉。
而 DirectX 的圖形 API 正是 Direct3D。大部分人在說 DirectX 的時候其實指的是 Direct3D。而 DirectSound 呢,就相當于是對應的音效 API。DirectSound 也有擴展部分,名為 DirectSound3D。
DirectSound有兩個核心功能。一是它能夠創建一個標準,統一化的環境供 3D 音效發展,并能讓軟件開發者輕松利用。第二個功能則是它能讓硬件為 3D 音效加速,這是一項非常復雜的計算任務。一直到 2006 年,DirectSound 和 DirectSound3D 一直是很多音頻應用的主心骨。隨后Vista誕生了。
隕落
隨著 Windows Vista 系統的發布,微軟隨即將 DirectSound3D 斬于馬下,將幾年來 Creative 音頻發展的基石化為烏有。無論是標準音效 API 還是硬件加速都瞬間失去了活力。想明白這究竟造成了多大的混亂,不妨想象一下哪天微軟突然決定也停止使用 Direct3D。
當然了,圖形行業能夠很快自我復原的幾率很高,但是這么做,對于圖形界的影響一定會是巨大的。移除 DirectSound 和 DirectSound3D 從某些角度來說是有利的,但對于當時音頻的狀況而言是個非常巨大的打擊。這段歷史就像是 Creative 把 Aureal 的輪胎放了氣,而當 Creative 準備上路的時候,微軟直接把 Creative 的輪胎卸掉了。
在 DirectSound3D 被喚醒的初期,很多人說硬件加速是多余的,完全不需要。這么說有那么點道理,但是撇開道理不談,這么多年來的游戲中軟件執行這塊似乎一直很單薄,而背后原因正是因為他們無法計算足夠的運算組,以至于無法創建真正的 3D 音效。從樂觀的角度來看這最近一個世紀,3D 音效在退步,但在代替軟件填補空白的幫助下,至少也在跌跌撞撞地找回自己的步伐。
余波
盡管從 Vista 開始的代替產品基本都是基于軟件制造的,也有少部分硬件加速的解決方案,比如 AMD 的TrueAudio技術,它們利用 GPU 進行運算,從而創造精準的 3D 音效。當我們想起聲音是一種物理現象,再想想 GPU 在物理渲染中日益遞增的作用,說 GPU 也能夠計算出精準的沉浸式 3D 音效似乎也不那么牽強。然而,如今的 3D 音效領域依然支離破碎。
事到如今,我們再回過頭來看,究竟解決方案是軟件還是硬件已經不那么重要了。重要的是能實現真正的空間定位,創造環境氛圍。可以說近十年來,這些過程常常是敷衍了事。隨著 VR 的到來,對真正的 3D 音效的需求總算到頭了。

歡迎光臨
VR 的一切都是關于沉浸感。Oculus Rift 特別強調了臨場感的概念,或是肉體上感覺自己正身處于某一環境中。視覺和聽覺都能使這種感覺更加逼真。
在 VR 中,能實現沉浸感和臨場感畫面的主要方式就是通過低延遲的頭部追蹤,當你轉頭,在地上匍匐前進時,顯示屏能以幾乎無法察覺的延遲匹配你的實時視野。有趣的是,頭部追蹤系統也恰好是為什么真正的 3D 音效至關重要的原因。
在現實生活中,我們常常會微微轉動,或者抬高頭部以確定某個聲音的確切來源,我們的大腦會記錄下這些聲音的差異。鼠標視角某種程度上能模仿這樣的行為,因此對于鼠標游戲來說 3D 音效是個不錯的選擇,但是頭部追蹤系統對于 3D 音效的需求幾乎是強制的。
3D音效:VR的必需品
VR 中的音效可以成為臨場感的點睛之筆,也能成為敗筆。正確執行的 3D 音效能加強一個場景的臨場感,給玩家們傳遞各種物體的位置信息,以及環境信息。能夠通過頭部運動追蹤一個運動中的物體固然很重要,能夠聽見與這個物體實時位置所匹配的聲音也同樣重要。視覺和聽覺可以相互加強,一旦這兩種感覺互相沖突,沉浸感就消失了。
想象一下你看見一個物體在你的身體上方,但聽上去卻像是在邊上;或者是你在聽一個角色講話,但是無論你的頭轉向何方,聲音似乎總是從正前方傳來。如果真的這樣,沉浸感就成了一個笑話,那也就更不用談什么臨場感了。
3D 音效非常重要,因為當我們聽到那些可以感覺到的聲音時,聽覺幾乎可以替代我們無法實現的觸覺,比如我們聽到了風從臉上吹過的聲音,或者雨落在身邊的聲音。來看看這個Oculus Connect 大會上的視頻,你可以對 3D 音效對于 VR 的重要性有更進一步的了解。
但這并不是說沒有優秀的 3D 音效,沉浸感就沒有了,而是真正的 3D 音效能將這種感覺放大至無限。這就是為什么 VR 如此堅決地推崇整合了空間定位和環境氛圍的真正 3D 音效。
然而有點反常的就是,由于耳朵對于聲音的連續性判斷和準確定位,利用 HRTF 的耳機似乎總比揚聲器傳遞更逼真的 3D 音效。
音頻復蘇
在 2014 年,Oculus 授權 VisiSonic 的音頻技術,并最終將其融入 Oculus Audio SDK 中。這項技術非常依賴定制的 HRTF,通過耳機來再現精準的空間定位,這其實也是 Aureal 在 20 年前就推出的技術。
最棒的部分不僅僅是 Oculus 將這項技術整合進了他們的 Audio ADK 中,而且他們還免費供應,甚至不僅僅在 VR 平臺上免費,其他任何平臺上也是免費,包括傳統 PC 平臺也是。盡管市面上也有很多各種各樣的三方音頻解決方案,但 Oculus 這么做也是為大家提供了一個高質量,并容易上手的 3D 音效基準,甚至為游戲內真正的 3D 音效定了起跑線,這條起跑線在快十年前 DirectSound3D 隕落時就不見了蹤影。
一段時間以來 3D 音效都處于一個“奄奄一息”的狀態,或者你也可以樂觀地說,它需要被復蘇。多虧了 VR 的到來,人們終于證實了 3D 音效復蘇的重要性。3D 音效再也不是備選的調味料了,它是一個非常重要的原材料,是可以放大、倍增整個 VR 體驗,可以將臨場感和沉浸感提升到圖形永遠無法企及高度的重要元素。