跳转至

空间音频

什么是空间音频——三维声与沉浸声

在已经广为普及的传统两声道立体声回放制式中,只有一个最佳听音点,这样对听者位置的要求具有很大的局限性。一旦听音者位置移动,声像位置就会随之改变,这是由于听音者的两个耳朵接收声音时的声级差和时间差发生了变化,相应的对于虚拟声源的定位也产生了改变,与原来的声源定位有 了偏差,达不到理想的效果。此外,两声道立体声制式不能确切地对人耳侧方和后方的声像定位,无法实现包围感,且无法还原平面波。

空间音频并没有其非常精确的定义,在传播中,它可以泛指一系列音频功能体验(通常需要具有头部跟踪的功能才称之为完整的空间音频体验),也可以特指一种音频规格,在这里,我们将“空间音频”作为三维声规格的代名词。它和传统的多声道相比,不仅有着大于立体声的声道数,并且还可能容许Object-Based(基于对象)的声音信息,这些声音不是简单地Pan到某个声道中,而是精确地以柱坐标的方式记录发声点相对于听音者的方位(静态)甚至位移(动态)。在用户终端,配合本地或者云端的Decoder和Renderer,则可以把这些声音对象在声道(声床)中的幅频响应(音色)和相频响应(空间感)精确计算并回放出来。

声道(Channel)、声床(Bed)与对象(Object)

  • 声道(Channel)/声床(Bed)

声道通常指在音频制作和回放中,在不同空间位置采集或回放的相互独立的音频信号通道,在回放中通常与扬声器数量对应起来。这里需要与“喇叭”区分开,因为一个扬声器可能由多个喇叭组成。声床是制作端对于声道的对应说法,例如5.1、7.1,甚至5.1.4、7.1.2等都是基于声道/声床的描述。在x.y的规格描述中,是以频率为依据进行划分,x指的是全频扬声器数量,y指的是低音扬声器数量。而在x.y.z的规格描述中,是以频率和空间位置为依据进行划分:x通常代表耳平面的传统环绕声道的数量(如前置、中置、环绕);y代表低音声道的数量,虽然我们见到的大多都是1,但在“多炮”的扬声器排布下,甚至可以提高到4个或更多低音扬声器,在更大的空间中实现理想的低频响应;z代表天空声道的数量,天空(或称高度)声道的存在使得扬声器排布从平面提升为立体,能够通过响度和时间差的调整,控制声像在三维空间中的方向。

  • 声音对象(Object)

声音对象是数字化音频时代引入的新概念,它打破了传统的声音回放的形式,每个声音元素的发声点不再只局限在空间中相对固定的声道/扬声器中,而是可以自由地摆放在虚拟的三维空间中的任意位置,甚至还可以按照设计的轨迹进行运动。直到最后的渲染阶段,这些对象的位移信息再由渲染器进行计算出哪个音箱要出多大声或者要延迟多少ms才能使得某个声音元素听起来像是它本来应该在的位置。这种概念的引入使得回放系统的配置更加灵活,每个消费者可以根据自己的具体情况购置回放设备,不论是简单的Soundbar,还是只有两个发声点的TWS耳机,不论是5.1.2的全景声基础配置,亦或是高达9.3.6的“满血”家庭影院,理论上都可以通过“计算音频”渲染出应有的音色。这一波,压力从用户端来到了渲染器。

上混(Up-Mixing)与下混(Down-Mixing)

在音频的制作与回放过程中,难免会涉及到信号处理(Signal Processing),这个过程可能是纯模拟的(由电子电路实现),也可能是纯数字的(由通用或者专用的计算单元实现),或者是两者兼有。而信号处理的重点就是研究输出信号和输入信号之间的关系,这个关系又被称为传递函数(Transfer Function)。当输出的声道数>输入的声道数时,这种传递函数是一种“上变换”,我们称为上混(Up-Mixing),当输出的声道数<输入的声道数时,这种传递函数是一种“下变换”,我们称为下混(Down-Mixing)。数学上来说,这是一种比较一个映射关系中定义域和值域的元素个数关系的判断。

特别地,有时候我们会将立体声2.0声道到双耳音频(Binaural Audio)的双耳渲染(Binaural Rendering)处理也称作下混。

头部跟踪(Head-Tracking)——声音的方位感

头部跟踪的必要性是一个大话题,为了更清晰地认知头部跟踪的必要性,我们需要了解人对于声音方位感的感知原理。人们对声音方位感的判断主要有4个依据:时间差、声级差、人体滤波效应和头部晃动

  • 时间差(Interaural Time Difference, ITD):

由于双耳位于头颅两侧,因此如果外部声源不在双耳连线段的中垂面上,其发出的声音到双耳的传输距离是不同的(图中的D1和D2),因此到达双耳的时间会产生差异,这个差异被称为ITD (Interaural Time Difference)。实际上D2的传播路径应该是沿颅表绕行,图中为方便理解画成了射线。

  • 声级差(Interaural Level Difference, ILD):

由ITD的存在以及声功率随传播距离衰减的特性可知,由于双耳和音源的距离差异,也会造成此外,头部的遮挡,也会使得到达左耳与右耳声音的声压级是不同的,进一步形成声级差。

和电磁波一样,声波也是频率越低,衍射(绕行)能力越好。在800Hz以下,声音可以绕过头部,因此头部的遮挡对声压级的影响较小,时间差起到主要的定位作用;800Hz到1500Hz是一个过渡性区域;而1500Hz以上,高频的声音会被头部遮挡,所以主要由声级差来判断方位。

  • 人体滤波效应:

人的头部、肩颈、躯干,会对来自不同方向的声音产生不同的作用,形成反射、遮挡或衍射。尤其是外耳,通过耳廓上不同的褶皱结构,对来自不同方向的声音产生不同的反射或遮挡,形成不同的滤波效果,大脑通过这些不同的滤波效果产生对声源方位的判断,这就是上文提到的HRTFs (Head-Related Transfer Functions)。

  • 头部的晃动:

当一个声源的位置难以判断的时候,人们常常会不自觉的轻微晃动头部,使时间差、声级差或人体滤波效应产生变化,并依据这些变化进行快速的重新定位。

下面我们可以根据这四个要素,从三维坐标的角度去理解声音是如何被定位的:

  • Y轴 - 左右定位:时间差 + 声级差 + 头部晃动

左右定位最容易得到,凭借时间差和声级差就可以对声源位置有一个良好的判断。当然一些情况下我们还是需要晃动头部来进行辅助定位。

  • X轴 - 前后定位:人体滤波效应 + 头部晃动

当一个声音从正前方或正后方传来的时候,声源与左右耳的距离相同,没有了双耳间的时间差和声级差,我们只能通过人体滤波效应和头部晃动来进行判断。来自前方的声音,除了直达声,还有一部分来自耳廓的反射声进入耳内。而来自后方的声音,高频部分被耳廓所遮挡,低频部分经过绕射进入耳内。

此时人们可以通过转动头部,把正前方或正后方的声音相对的移动到侧面,这样就使得左右耳之间的声音出现了时间差和声级差,便于定位。

  • Z轴 - 上下定位:人体滤波效应 + 头部晃动

耳廓上的褶皱会对来自不同高度的声音进行不同反射,是我们对声源高度判断最主要的依据。

同时我们也可以通过晃动头部,使左右耳之间的时间差、声级差产生变化。帮助我们更精确的判断高度位置。

双耳渲染(Binaural Rendering)——声音的空间感

室内声场有3个组成部分:直达声、早期反射声和混响声。人们对于声音的空间感主要是依据早期反射声和混响声来建立的。

  • 早期反射声

首先直达声与早期反射声之间的初始延时大小决定了我们对空间大小的感知。同时,早期反射声会来自三维空间内各个方向,通过HRTFs信息,我们也可以感知到不同方向早期反射声不同的延时和响度,这有助于我们判断声源的位置和距离。另外,也能够让我们在一定程度上感知到自己在空间中所处的位置。所以,建立一个三维的早期反射声对我们构建一个三维的空间感是尤为重要的。

作者:削腚恶
链接:https://zhuanlan.zhihu.com/p/584461699
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

  • 混响声

声音在空间中不断反射、衰减,形成了均匀、密集的混响声,混响的时间、密度反应出了整个空间的声学特性,与直达声、早期反射生共同建立起室内声场。这是一个经过多次反射的、没有方向性的声音,当然没有方向性也就是说它会来自三维空间内的各个方向。

而消费类音频和其他消费类电子一样,日趋小型化、便携化,移动设备成了用户基数最大的设备群体,耳机同样也成为音频回放的主要设备。因此不论音频的制作流程是如何,都需要考虑最终在耳机上回放的效果。而双耳信号回放的终极目标就是在听音者鼓膜处再现与实际听音环境相同的声学信号。一种方式是在同一位置进行录音和回放(Dummy Head人头录音),但这种方式极大地制约了现代音乐产业中的混音工作,不适合非现场演出的录音和回放。另一种就是采取“计算音频”的方式,模拟在真实听音环境中聆听一个或多个真实扬声器的听觉体验。从理论上来说,只要模拟足够精确,双耳重放应该完全可以重现多个扬声器的听感(不包括其他感官),毕竟人的耳朵本身也是双声道的。到达听者鼓膜的声音是从扬声器辐射出来、在空气中传播并与房间及人体作用后才到达人耳的。因此当听音者坐在一个配有多个扬声器系统的房间中,房间声学、扬声器位置、听音者所处位置、听音者的身体状况以及上述因素之间的关系将会影响Ta所感知的声像。捕捉扬声器、房间声学以及听音者HRTFs的综合信息将会得到双耳房间脉冲响应BRIR(Binaural Room Impluse Response)。将BRIR与扬声器播放的信号进行卷积处理,就能够通过耳机重放获得理想扬声器在理想房间中的效果。因此在体验空间音频功能时,如果使用耳机回放,只把声道进行简单地叠加混音是错误(但普遍)的做法,那会丢失同一边的声道的方向感(比如左前和左后听起来都是在左边发声),双耳渲染是最后且最重要的一步

空间音频的规格种类

看上文的完前置知识后,就可以来细数一下世上的主流或者非主流空间音频规格了。我们需要注意区分CBI(Channel-Based Immersive)和OBI(Object-Based Immersive)的差异,它们在原理和实现上有着代差,通常来说,与x.x或者x.x.x这种固定的声道排布绑定的规格,是CBI规格,而基于对象的空间音频规格则不限定排布方式,是OBI规格。不论是CBI还是OBI的规格,在音响系统中回放时,最终都要回归到声道排布上。

Auro-3D

Auro-3D是2006年发布的空间音频规格。许是当时计算机还在卷图像,尚未有余力顾及音频,所以当时诞生的Auro-3D只是一种基于声道(CBI)而非对象(OBI)的空间音频规格。它和杜比不同,采用了三层扬声器排布,包括平面环绕、天空声道(在Auro-3D里叫高度声道更合适,因为第一层是排布在第二层的正上方)、还有“上帝之音”的正头顶声道,别笑,他真的就叫VoG (Voice of God) 声道。Auro-3D的扬声器排布方式很多,如7.1.2, 7.1.6, 11.1, 13.1等等。2015年因为杜比的强势崛起,Auro-3D也增加了基于声音对象的AuroMax系统,可以支持高达26.1的声道排布。

Dolby Atmos

Dolby Atmos即杜比全景声,于2012年发布,是一种广泛应用的基于对象的空间音频规格。它可以最高支持128条独立音轨和64个扬声器组合的回放系统。它采用两层扬声器排布,包括在听音者同一平面的环绕声道和置于听音者上方的天空声道,典型的家庭回放配置可以达到7.1.4甚至更高,而影院配置则可以容纳多达64只扬声器。

Dolby Atmos Music

杜比全景声音乐是杜比于2019年专为音乐流媒体服务推出的空间音频规格,制作工具和流程上和原始的杜比全景声类似,典型的扬声器配置有7.1.4, 9.1.4, 9.1.6等,还加入了耳机和智能音箱的回放支持(更丰富的下混渲染器)

DTS:X

DTS:X是DTS公司于2015年发布的空间音频规格,和杜比全景声一样基于对象,但更加灵活。除了同为两层排布外,官方并不严格标定扬声器数量,回放渲染可以很自由地根据扬声器的数量和位置进行渲染。支持多达32个扬声器,但通常的实例是7.2.4。在院线中,DTS:X通常与IMAX绑定在一起。

WANOS

WANOS可以说是中国的杜比,于2017年发布,最大支持128个通道/对象。由于国际政治原因和国内的标准、商业需求,发展得很快,他们的ADM和杜比全景声、Audio Vivid等也是通用的,但是发力点主要是在影视制作及院线上,也有着7.1.4、9.1.6等规格的扬声器排布。

MPEG-H Audio

由Fraunhofer IIS研究院(怎么又是他!)2013年为流媒体和广播应用开发,被国际标准化组织和国际电工委吸纳为ISO/IEC 23008-3规范的空间音频标准(从名字也能看出来)。MPEG-H是有着很强的扩展性和定制化的能力的下一代开放音频标准(开放但不是开源),支持高达128个声道和64个扬声器排布,以及24个独立/动态的声音对象。最厉害的地方在于它支持HOA (Higher Order Ambisonics),HOA (Higher Order Ambisonics) 是索尼在360RA中抛弃的MPEG-H其中一个能力。简单来说由于人类感官的局限性和当前主流视觉交互设备的尺寸限制,感官上的空间感和沉浸感无法完全靠视觉来满足,需要靠听觉来弥补。而当前主流的2D平面消费电子的音效却欠缺通过视频内容“猜”声音的位置、远近、混响,创作者可以利用HOA声学模拟器/虚拟声学环境来将声音精确对齐视频场景以及场景中的物件,音视频精确配合来增加空间音频的真实感。这也是为什么HOA会被单独作为NGA (Next-Generation Audio)的ADM规范中的SBA(Scene-Based Audio)被DVB进行推广支持。韩国的UHDTV系统就以MPEG-H最为标准音频规格。

ITU-R and Pure Research

国际电联无线通讯部门ITU-R仍然在UHDTV标准的研究中继续摸索沉浸式音频的规范,他们的理论研究不仅涉及房间回放、双耳渲染,还同时研究静态和动态的空间音频。他们的排布至少包含三层扬声器以及至少一个低音扬声器,总数量从11到80个不等,同时也在和日本的NHK,美国的SMPTE,欧洲的EBU密切合作。虽然没有什么工业化和产业化苗头,但却可以给我们提供最中立和可靠的文献。

杜比全景声

认识完世上的几乎所有空间音频规格,让我们聚焦在目前商业化最成功的杜比全景声上来。

杜比全景声的编码种类

  • E-AC3-JOC (Dolby Digital Plus Joint-Object Coding)

E-AC3-JOC是E-AC-3的杜比全景声版本,可以理解为“半代升级”,增加了最多8个通道的编解码,因此最大的通道数为7.1+8,即15.1,可以支持15个全频带音频通道和1个低频效果(LFE)通道。但这16个“通道”并不仅限于声道的形式,也可以动态地配置为16个对象。当杜比全景声以E-AC3-JOC的形式进行串流/分发的时候,Atmos元数据会首先编码成16个通道(涉及到统编与对象合并),然后再渲染到7.1甚至5.1的标准E-AC-3规格。每个通道的Panning元数据会和JOC元数据一起填充进7.1/5.1数据的空白区域(毕竟很多声道都不是一直出声的)。这些元数据编码采用的是Joint的方式,只记录16个通道与7.1/5.1的信号差值,这样可以减少每个通道编码的重复冗余,提高编码效率。解码的时候,这些元数据又会从7.1/5.1的数据中还原出来,成为16个通道的数据,回放系统再根据它们的元数据和Panning数据,在相应的扬声器排布上进行渲染和回放。E-AC3-JOC有时候也叫做DDPJOC,DD+JOC。

  • AC4

AC4是杜比的E-AC3的真正下一代版本,引入了更多的声道数和声音对象的支持(最大24个通道),同时也向前兼容传统环绕声的配置。杜比声称AC4有着比E-AC3高50%的压缩效率,播放5.1声道的时候可以在192kbps的码率就达到90分的MUSHRA评分,在ATSC 3.0测试中,AC4的立体声在96kbps就有非常理想的效果,192kbps就能满足5.1声道的理想效果,288kbps就能满足7.1.4声道的理想效果,而22.2声道则需要1536kbps的码率,仅仅和16bit/48kHz的立体声PCM相当。但是目前仅有移动设备支持AC4的解码和回放,大多数家庭和台式设备暂不支持AC4的解码和回放。

  • AC4-IMS

AC4-IMS (Immersive Stereo)是一种双声道串流格式,可以看做是AC4的“移动阉割版”。顾名思义,它是一个已经“空间化”的编解码格式,其在编码的时候在DAMF(Dolby Atmos Master File)加入了双耳渲染模式的元数据,因此当用移动设备连接耳机回放AC4-IMS的时候,它会自动被渲染成双耳模式。当然,AC4的元数据(Metadata)中还有一组额外的参数,可以用来让移动设备的外放扬声器来回放空间化的沉浸声。AC4-IMS的发布时间很难不让人怀疑这是杜比自己摸索HOA的方式,毕竟AC4-IMS仍然存在一个问题,即如果引入头部追踪,那么已经渲染好的AC4-IMS是不含有原始声道和对象信息的,无法在非0°的方位正确地渲染出原始声道/对象应有的听感,和真正的Scene-Based Audio还是有一定的差距。

使用耳机在移动设备上聆听AC4-IMS几乎和杜比全景声母带处理套件DAMS(Dolby Atmos Mastering Suite)或杜比全景声制作套件DAPS(Dolby Atmos Production Suite)中杜比全景声双耳音频渲染器的效果一致,因此后者的效果可以作为参考效果。但是,由于移动回放设备依然是流量敏感型设备甚至是成本敏感型设备,因此为了串流效率和成本控制,AC4-IMS仅仅只赋予每声道72kbps的码率,所以它的全景声回放效果是无法与DD+JOC相提并论的,即使有时候听起来可能差不太多。

杜比全景声编码种类对比

编码种类 有损/无损 最大声道数 最大对象数 采样率 位深 码率 动态码率
E-AC3-JOC 有损 15 7 32, 44.1, 48 kHz 16, 20, 24 32~6144kbps No
AC4 有损 24 7+ 48 kHz 16, 20, 24 24~1536 kbps No
AC4-IMS 有损 2 0 48 kHz 16, 20, 24 72kbps No
True HD 无损 16 16 44.1~192 kHz 16, 20, 24 ~18Mbps No

杜比全景声的制作

根据与有丰富Atmos混音经验的老师的沟通请教,业界主流的杜比全景声(音乐)的制作方法由项目决定,项目分为两种:

  • 以前期录音为中心的杜比全景声音乐作品

这种作品多为沉浸声录制,以古典、爵士等现场音乐艺术为主。其音量平衡、音色、定位在录音时已大部分形成,录音师的水平是制作的关键;

  • 以后期混音为中心的杜比全景声音乐作品
  • 混音师在混音棚中进行音量、音色、定位与空间的处理,混音师的水平是制作的关键;
  • 流媒体发行的文件提交格式:
  • BWF (Broadcast Wave File) with ADM (Audio Definition Model)

这是最为常见的格式,包含了最多的原始信息,其中The Audio Definition Model (ADM)是一种标准化的音频元数据规格,是用来保证音频文件的正确处理的。

  • DAMF (Dolby Atmos Master File)

可以和BWF+ADM等效

  • DD+JOC (Dolby Digital Plus Joint Object Codec) :

E-AC3-JOC编码这个不用多介绍了,有些平台会要求上传DD+JOC

  • MP4:

某些视频平台会要求上传MP4,其音轨实际上是DD+JOC

杜比全景声的回放

严肃回放

  • 扬声器的数量和排布

杜比全景声自发布伊始,目标就是影视、音乐的创作端和回放端的一致性。而考虑到杜比全景声制作端的主要监听方式是音箱(通常为7.1.4),因此最接近制作端的回放方式,自然是经过良好校准的全景声排布的音箱。需要注意的是,由于我们宏观上处于一个三维空间内,所以获得完整的空间声像重建(不遗漏任一方向)的最小排布应该是2 ,取n=3则为5.1.4。这也是许多消费者在购买9声道的音箱(AVR)时心中的疑问:是选择5.1.4还是7.1.2?从几何学上来看,5.1.4的声像重建一定是优于7.1.2的。由于杜比的渲染器暂时还不能对对象在多声道回放的排布中引入相位延迟,所以声道数量就直接对应着定位精度。有条件的话,采用9.1.6或者更高的的扬声器排布规格会有更好的定位感。}+1 . 1 . 2^{n-1

  • 扬声器的校准

仅仅有了相同的扬声器数量和排布,并不能保证消费者和创作者听到的内容高度相似。扬声器的校准是非常重要的一部分。即使是传统的立体声回放,在校准环节也有着非常多的学问,而多声道的校准必定更加复杂,不仅需要和立体声回放一样对每个扬声器的频响进行校准,还要对于低音扬声器和全频扬声器的分频参数(截止频率和斜率)进行调整,以保证分频顺滑。此外,由于多个扬声器的排布方式很难从几何上肉眼察觉其距离上的差距,因此对于每个扬声器的回放时间差也需要进行调整,以保证相位的一致性。对于普通消费者而言,多声道音箱系统的回放,通常由AVR(Audio-Video Reciever)作为杜比全景声(及其他空间音频规格)的解码器和放大器,如Marantz、Denon、Yamaha、Onkyo以及国产的天逸等等,他们都有着较为自动化的校准工具,如Audyssey MultEQ、Dirac Live,Accu EQ、Easy EQ等;而对于某些专业音箱品牌的用户可能也会使用音箱厂商提供的多声道/全景声校准工具进行校准,如Genelec的GLM、IKMultimedia的ARC3、Sonarworkds的SoundID Multichannel等;更有甚者,可能会使用独立的工具进行全手动的校准。这个话题有着非常多理论和经验上的讨论,在此不做赘述。