音频应用

 找回密码
 快速注册

QQ登录

只需一步,快速开始

阅读: 61908|回复: 1

[资讯] VR音频技术科普

[复制链接]

172

积分

0

听众

0

音贝

音频应用新手发布

Rank: 3

积分
172
发表于 2006-10-13 | |阅读模式
音频应用公众号资讯免费发布推广
声音在很多媒介中都处于一种从属性的地位,特别是在影视和游戏等娱乐媒体中,声音通常需要服从和配合画面的表现;最近在与一些从事 VR 相关开发的团队接触后,发现大家对于声音在 VR 这个新媒体中的作用还不是很了解,或者是不太清楚该如何进行有关 VR 的声音设计制作。所以借此机会,SounDoer 计划写一个名为 The Introduction of Virtual Reality Audio for Films and Games 的系列文章,消化一下之前吸收的内容,先来纸上谈兵地聊一聊有关应用于影视和游戏领域的虚拟现实音频技术(Virtual Reality Audio,以下简称为 VR Audio)。

丨 名词解释:3D Audio / VR Audio

大家对于 3D 电影、3D 游戏等此类视觉效果上区别于传统 2D 的媒体形式都非常熟悉。严格来说,3D 电影和 3D 游戏中所指的 3D(Three Dimensional)概念是有所不同的:3D 电影特别在重放效果,戴着特制的眼镜在平面的银幕上看出了 3D 效果,实际上是欺骗了你的眼睛;而 3D 游戏则是特别在其构建的空间环境,游戏中的人物视角可以全方位的变化,但其呈现方式只是平面屏幕,因为你用的还是传统的显示器。而目前采用 HMD(Head-Mounted Display 头戴式显示设备)方式的 VR 技术,则感觉像是 3D 电影和 3D 游戏的技术结合。

总之,3D 是一个大概念,很多东西都可以往里面装;而 3D Audio 就是一个装了很多东西、常常让人搞不太清楚的概念。所以,在说 VR Audio 之前,我们先来聊一聊 3D Audio 是什么。

顺着上面提到的电影与游戏两大媒体的特点,我是这么来理解 3D Audio 的:


640.webp (24).jpg

就电影声音的重放效果而言,广义上来说,任何能够提供多个方向性声源信息的重放系统都可以称为是某种程度上的“3D”。举个例子,如果以最常见的双声道立体声(Stereo)为基础,那么 5.1 环绕声的效果就要比双声道立体声更加“3D”,而 7.1 环绕声就要比 5.1 环绕声更加“3D”,以此类推。随着音箱数目的增加,环绕声系统的声音定位效果就会越来越好(当然实际情况是不允许无限制地增加音箱数目的,而且也有实验论证存在上限值)。但从狭义上来理解,5.1、7.1等环绕声系统的音箱位置都是在同一高度的,即听到的声音都只能从同一平面传来,所以它们都是不符合 3D Audio 中的三维定义的。

如果大家去杜比全景声(Dolby Atmos)影厅看电影的时候可以留意一下,影厅天花板上也安装了成对的音箱,这样的话观众就能听到来自头顶的声音了,比如飞机掠过的声音等。所以说,Dolby Atmos 技术从重放效果而言,可以说是 3D Audio 的,但还是属于“增加音箱数量”的环绕声系统设计思路。(Dolby Atmos 在制作手段上是有革新的,在现有 Channel-Based 的基础上结合了 Object-Based 的方式,后续文章中可能会详细解释。)


640.webp (25).jpg

说完了电影声音的重放效果,我们再从游戏空间环境的角度来讨论一下。以典型的 FPS 第一人称视角射击游戏为例,游戏内的世界是一个真正的 3D 空间环境。与现实生活中一样,游戏中的声音也是从声源处传出的:比如,游戏中你的头顶上有一架飞机飞过,飞机引擎的声音就是从飞机处传到你游戏中所在的位置的;再比如,当有敌人从背后朝你开枪时,那么枪声就是从你身后传到你所处的位置的。所以,单就从游戏内空间环境的角度而言,目前的游戏音频制作手段可以说是 3D Audio 的,游戏内的声音也是 3D Positioning Sound(不全都是,后续文章会有具体解释)。

但是,为什么你打游戏的时候听不出飞机从头顶掠过的效果?为什么你没法听到敌人在你背后“突突突”?——这就要说到游戏的声音重放了。以游戏主机端(PS4/Xbox)的作品为例,目前大多数游戏的声音输出采用的是环绕声系统,即上面提到过的 5.1 环绕声系统,声音也都只能在同一平面上传播。所以,即使你用环绕声系统的家庭影院来打游戏,你也没法听到头顶上飞机的效果。而实际情况是,大多数玩家用的是一对普通的立体声音箱,或者一副耳机,甚至只是电视机上的小喇叭,那就更不用想听到来自头顶和身后的声音效果了。所以,从游戏声音重放效果的角度而言,目前的游戏音频其实并没有那么的“3D”。(有关目前游戏音频的制作思路和手段,将会在后续文章中作为 VR Audio 的技术基础来具体讨论。)

640.webp (26).jpg
一套5.1 surround sound系统的家庭示意图

以上就是从电影和游戏两个角度出发,对于 3D Audio 的一些理解。

相较而言,其实还有其他比 3D Audio 更恰当的词,可以用来表述上面提到的声音系统的特点:比如 Spatial Audio/Sound、Immersive Audio/Sound 等。从最开始的单声道(Mono)发展到现在像 Atmos 这样的环绕声系统,目的就是为了追求更好的沉浸体验。更加逼真的沉浸式体验,其实也是 VR 技术的追求目标,所以 Spatial Audio、Immersive Audio 有时也会被用来形容与 VR 相关的声音技术。然而,在这个系列文章里讨论的 VR Audio,将会有更加明确的定义。

那么 VR Audio 指什么?简单描述一下就是,通过耳机重放的方式(或者音箱),结合头部追踪(Head Tracking)等技术,让用户在做转动头部等动作时能够听到来自各个方向的声音(及其变化),并配合头戴式显示设备来获得更好的沉浸式体验。
丨 Binaural Recording·双耳录音

双耳录音,通常也叫做人工头录音,一种与普通立体声拾音不太相同的录音方式。

与物体本身发出的声音相比(或者说是声源处的声音),我们真正感知的声音其实是受到了很多方面的影响的。比如,躯干、头部、耳廓和耳道等身体结构就是一个很重要的影响因素,也是我们辨别声源方向的生理基础。所以 Binaural Recording 的思路就是,在声音采集阶段去还原由身体结构(主要是头部结构)对原始声音产生的影响:制作一个 Dummy Head(人头模型),把话筒(拾音振膜)分别置于左/右人工耳道中,以这样的方式录制得到模拟左/右耳听到的声音,并最终通过耳机重放。不能用音箱重放的原因是:从音箱发出的声音信号会再一次受到听者自身身体结构的影响,听起来就会很奇怪。
640.webp (27).jpg

图中为一些人头录音的设备。编者借图注说一句题外话:我们在网上常常能够看到某些打着「ASMR」标签的音频/视频内容。ASMR指的是「自发性高感反应」,或者也有人叫「颅内高潮」,是一种人们在听到距离耳朵很近距离的轻柔生效时产生兴奋、战栗甚至特殊快感的反应。这些内容绝大多数都属于双耳录音内容的范畴,而它们的产生也离不开双耳录音设备。下面的视频「Virual Barber Shop」虽然并没有ASMR的标注,但基本原理相同。

有关 Binaural Recording 的研究早在二十世纪六七十年代就已开始,Neumann 公司在当时也推出过成熟的人工头录音产品(比如 Neumann Ku 80/81);YouTube 等网站上也有很多 Binaural Recording 的视频,比如非常有名的 Virtual Barber Shop。


在我们现在讨论的 VR 游戏和影视的制作中,Binaural Recording 的作用是很有限的;因为以这种方式录制下来的声音是“固定”的,即它只记录了当时特定地点、特定方向的声音信号,无法满足 VR 内容中根据用户运动而产生变化的需求。

丨 HRTF·头部相关传输函数

HRTF,可直译为“头部相关传输/传递/转换函数”。基于上述对 Binaural Recording 的解释,HRTF 可以简单地理解为是“原始声音与人耳实际接收到的声音之间的差异”;而在实际运用中,HRTF 可以想象成是一个滤波器,对原始声音进行频段上的调整,使其接近人耳接收到的听感效果。

我们再从另一个大家可能有所了解的角度来描述一下 HRTF:卷积混响(Convolution Reverb),或者叫采样混响,其中使用的 Impulse Response(冲激响应)采样是在实际的特定空间中录制得到的;比较常见的方法有瞬态脉冲(气球爆炸或发令枪声等)和扫频(用音箱播放一个从低频到高频的全频段正弦波声音信号),录制得到的整个空间对于这些瞬态脉冲信号或扫频信号的混响反应,经过处理之后就可以以卷积的方式应用到其他声音上去。而我们获取 HRTF 数据的方式就与之类似:在消声室(尽量减少空间环境的影响)中架设一个人工头麦克风,从人工头的各个不同方向播放 Impulse Response 信号,并录制下人工头采集到的声音,这样就得到了与卷积混响中 IR 采样概念类似的数据,可以叫做 HRIR(Head Related Impulse Response);将其与原始的 IR 信号进行对比,经过处理之后就可以得到 HRTF 了。
640.webp (28).jpg

消音室中的人头麦克风

目前已经有大大小小许多团队开发了基于 HRTF 算法的音频插件,可用于 DAW 软件和音频中间件,之后的文章中将会有部分介绍和测试。

丨 Surround Panner / HRTF Panner

更简单的解释:HRTF 相关的音频插件在使用时就相当于是一个声像定位器。多声道环绕声的定位方式是基于声道的,声像可以定位在以 L、C、R、Ls、Rs 等多个音箱决定的水平面上,最常见的双声道立体声就是把声像定位在左右两个音箱之间的范围内;而 HRTF 定位,则是在以头部为中心的空间范围内,用参数去控制一个“虚拟声源”的声像,包含了前后左右以及上下等各个方位的变化。
640.webp (29).jpg

某种360度的环绕定位器插件,图片来自网络

丨 Ambisonics

Ambisonics(目前好像还没有通用的中文翻译),是一种球形(Full-sphere)的环绕声技术,研发于二十世纪七十年代。可以试着从两个层面来理解:一是录音制式,二是编解码算法。

就从录音制式来看,Ambisonics 可以理解为是 M/S 立体声录音制式的三维扩展,以一定方式组合的四个振膜阵列记录了具有高度和深度信息的四轨声音信号。


640.webp (30).jpg
从编解码方式来看,采用 Ambisonics 方式录制得到的声音信号可以通过计算变换后,以双声道立体声、5.1、7.1,甚至是11.1、22.2等各种多声道环绕声格式来输出,即它不是 Channel-based 的。

Ambisonics 技术在 VR 领域的用处在于,可以作为一种音频文件格式用于保存和流通;YouTube 在年初推出的支持全景视频的音频格式就采用了 Ambisonics 技术。

丨 Omni-Binaural Microphones / Ambisonic Microphones

在声音素材采集方面,除了传统的单声道和立体声麦克风之外,还有两种较为特别的话筒可以用于 VR 内容制作。

一是上面已经提到过的 Ambisonics 话筒,比如 CoreSound 的 TetraMic、TSL 的 SoundField SPS200 等;还有更进阶的产品,如 Eigenmike Microphone 这样的球形话筒。

640.webp (31).jpg

sps200

640.webp (32).jpg
eigenmike_microphone

二是 Omni-Binaural 话筒,可以看做是人工头麦克风的升级版本,比较典型的产品是 3Dio 的 Omni Binaural Microphone。


640.webp (33).jpg
Omni Binaural Microphone

综上,其实目前用于 VR 音频制作的软硬件技术早已出现,只不过在此之前基于环绕声系统(Surround Sound System)的各种技术、产品和制作流程太过成功,使得像 Binaural 和 Ambisonics 这样的技术少有用武之地。而现在随着 VR 的兴起,老技术借助自身特点焕发了第二春。
通常,我们把影视称为是“线性媒体(Linear Media)”,而游戏则是“非线性媒体(Non-linear Media)”或“交互媒体(Interactive Media)”;两者各自的特性也决定了声音设计思路和手段上的不同。

丨 VR Films

首先,有必要再厘清一下概念,接下来讨论的“VR影视”主要是指,“采用摄像机拍摄并后期拼接而成的全景视频”;而真正实现可交互的 VR 电影,其制作过程中运用的技术手段则与 CG、游戏开发更为接近。另外,佩戴 3D 眼镜观看的 3D 电影,与全景视频和可交互的 VR 电影是完全不同的。3D 电影是有“景深”的,模拟的是人眼成像方式,而全景视频是把由多个摄像机拍摄而成的平面画面拼接起来,效果就像是一个球形屏幕。

线性可以简单地理解为是“基于时间线”的,即几时几分几秒影片的画面和声音内容都是确定的;从空间角度来看,在某一时刻里画面展示的空间中,各个声源与镜头之间的关系(或者说是与观众之间的关系)都是确定且唯一的。所以,在 DAW 中对影片进行声音制作时,几乎所有的参数(响度、频率和混响等)调整和变化都是且只是基于时间的。

640.jpg
一种360度摄像机

那么,VR 影视与现有的传统线性媒体相比,最大的区别是什么?虽然时间仍是线性的,但观众能够在以摄像机为中心的位置上自主地选择观看的方向;实际的效果类似于博物馆里的球形屏幕,只不过 VR 是通过头戴式显示设备(HMD)的方式来呈现。

如果是球形屏幕加上扬声器的观看方式,画面内容与扬声器(对观众来说就是实际的声源)之间的相对关系是确定的,那么声音制作其实就跟平面显示的影片没有区别,都可以称为是 Channel-based 的方式。而如果是头戴式显示设备加耳机重放的方式,声音的制作看上去就有点复杂了:如何在只有双声道立体声输出的耳机上听到来自各个方向的声音呢?

把这个问题拆分成两部分:一是解决在制作时声像位置怎么放,二是解决在重放时双声道耳机怎么听。

640.webp (34).jpg
与球幕影院不同的是,戴上HMD之后声像与人头之间的位置关系是随着运动而发生变化的

先说声像(Panning):在制作双声道立体声内容时,声像位置只能安排在两只音箱之间的连线上,再加上可以通过对响度、频率和混响等进行调整而营造出的距离感,因此实际的听感是,声音只能从由两只音箱所夹范围的平面区域内传出;类似地,5.1 环绕声系统比双声道立体声多了中置音箱(C)和后置的左右音箱(Ls、Rs)(.1低音扬声器不用考虑),因此可以说,声音能从五只音箱所决定的一整个平面区域内传出。

而为 VR 影视制作声音时,为了能够听到来自更多方向的声音,其实就是在以听者为中心的整个球形区域内来安排声音的声像位置;在确定某一方向基准后,画面内容与位于球形区域中心的听者之间的相对关系也是确定的,这就跟上述的双声道立体声、环绕声定位方式差不多了,只不过多了声音的在垂直方向上的高度信息。理论上,通过水平转动(Pan)和垂直转动(Tilt)两个参数,就能控制视角在360度球形范围的朝向;同样地,这两个参数也能用到对声音的控制上,这样就能让声音配合视角的朝向来做出相应的变化。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

3491

积分

2

听众

-426

音贝

音频应用新手发布

Rank: 3

积分
3491
发表于 2006-10-13 |
欣赏了额,谢谢楼主的发布啊
欢迎厂家入驻,推文!免费!微信:yinpinyingyong
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

音频应用搜索

小黑屋|手机版|音频应用官网微博|音频招标|音频应用 (鄂ICP备16002437号)

Powered by Audio app

快速回复 返回顶部 返回列表