音视频技术(五)沉浸式音视频系统
来源:UON安城弱电 编辑:lgh 2025-07-04 09:28:34 加入收藏 咨询

所在单位: | * |
姓名: | * |
手机: | * |
职位: | |
邮箱: | * |
其他联系方式: | |
咨询内容: | |
验证码: |
|
国内弱电工程通常分为两大类别:ELV和AV。ELV系统就是我们常说的建筑智能化系统,而AV就是音视频系统,这两类工程所需要的资质不同,招标的时候也通常被划分为2个标段。有时候AV工程还会再细分一个专业扩声系统。本公众号(N Solutions)将分系列文章进行分享。
音视频系统集成(AVSI)。全称Audio and Video System Integration,简称AVSI,用来描述做音视频系统集成的工程商(公司)或工程项目(业务),属于弱电系统(ELV)的子系统,建设内容狭隘理解含盖音响扩声系统、数字会议系统、远程视频会议系统、显示系统、点歌系统、智能集中控制系统以及灯光系统。
弱电智能化系统(ELV System)。Extra Low Voltage,ELV,超低压、弱电(36V以下),相对强电而言。弱电系统(Extra-Low Voltage System,ELV)自西方引进,在国内发展已有30多年,在项目上的实施已经逐渐被大范围的普及和应用,成为机电工程或电气工程的重要组成部分。弱电系统在国内通常也被称之为建筑智能化系统、智能化系统、安防系统。
五、沉浸式音视频系统
2020年9月,国家广播电视总局科技司在《5G高新视频-沉浸式视频技术白皮书(2020)》对沉浸式视频的定义:国家广播电视总局顺应技术革命浪潮,提出了“5G高新视频”概念。5G高新视频是指5G环境下具有“更高技术格式、更新应用场景、更美视听体验”的视频。其中,“高”是指视频融合4K/8K、3D、VR/AR/MR、高帧率(HFR)、高动态范围(HDR)、广色域(WCG)等高技术格式;“新”是指具有新奇的影像语言和视觉体验的创新应用场景,能够吸引观众兴趣并促使其产生消费。沉浸式视频作为高新视频业态的重要组成部分,是指一种采用裸眼观看方式获得身临其境感受,呈现画面覆盖人眼至少120°(水平)×70°(垂直)视场角的视频系统及具备三维声的音频系统。沉浸式视频通过播放器、投影幕或LED自显屏、多声道扬声器、播控系统等构建出超大视角、超高沉浸感的视听呈现系统,使观众能够同时获得周围多方位的视听信息,带来单一平面视频无法展示出的强大沉浸感,让观众真正有身临其境的感觉,应用场景丰富且形式多样。沉浸式视频通过视频、音频及特效系统,构建具备大视角、高画质、三维声特性,呈现形式包括但不限于球幕、环幕、沉浸屋CAVE等异形显示空间。
随着超高清4K/8K技术日趋成熟以及三维声的推广应用,沉浸式视频也进入了一个新阶段。超高清视频在高分辨率、高帧率、高色深、 广色域、高动态范围上实现了突破:4K/8K高分辨率为观众提供了更为丰富的画面层次和更为精致的画面细节;高帧率技术能够提升影像的细腻度和流畅感;高色深、广色域提升了画面颜色的丰富程度;高动态范围技术的使用大大地提高了画面的对比度,能更好地展现亮部和暗部的细节。在三维声方面,杜比全景声、MPEG-H、AVS2-P3和DTS-X等技术的应用,将音频扩展到三维空间,进一步强化沉浸式视 频的空间表现力和临场感,为用户带来了全新的音频体验。在沉浸式视频呈现方面,投影融合技术已趋于成熟,高分辨率、高亮度、广 色域的工程投影机已大规模使用在球幕影院、展览展示、大型演出及光影秀中;各种形式的LED自显屏也越来越多地应用到影院和游乐场所的环幕、球幕中。
沉浸式音视频的核心要素包括以下三个方面:画面包围感、画质、沉浸式声音。
沉浸式视频核心要素表
听觉作为仅次于视觉的重要感官通道,对沉浸式的视听体验至关重要。随着用户对视听体验的极致追求,在“视”之外,沉浸之“声”技术应运而生。沉浸式音频是指能够呈现空间的还音系统的声辐射,至少能覆盖观众的前、后、左、右、上五个方位。除此之外,还能真实地营造出声场的水平纵深和垂直高度,即从听者角度能精准地定位声音的方向和位置。
真实世界的声音来自环境的四面八方,人耳往往可以通过声波的时间差、强度差、相位差、频率差等辨别声音的方位。现有的立体声和5.1环绕声只能呈现部分方向传来的声音信息,若想获得声音带来的沉浸感,需要尽可能全方位再现真实世界的声音,也需要一种沉浸式音频技术来实现。
沉浸式声音主要通过三维声技术来实现。三维声技术实现主要分为三大类:基于声道的音频(CBA)、基于对象的音频(OBA)和基于场景的音频(SBA)。基于对象的技术是目前主流的三维声技术。在电影领域,三维声技术已广泛应用,如Dolby Atmos全景声、DTS-X、HOLOSOUND、WANOS全景声、中国多维声、Auro-MAX等。在广电领域,三维声技术主要有Dolby Atmos和MPEG-H、AVS2-P3。沉浸式视频的声音系统推荐使用基于对象或场景的三维声技术,需要实现不低于5.1.4声道的声音系统,即在传统5.1环绕声基础上增加4个顶部声道。
基于声道技术(CBA):在传统5.1环绕声的基础上,增加了4个顶部声道,通过增加声道的方式来补充空间中的声音信息,但只能呈现部分方向来的声音信息。
基于对象的技术(OBA):是目前主流技术,并在电影领域已广泛应用,如Dolby Atmos全景声。该技术会产生大量的数据和运算,除了声道的音频外,还有关于声源的元数据Metadata,即:声源(位置/大小/速度/形状等属性)、声源所在的环境(混响Reverb/回声Reflection/衰减Attenuate/几何形态等),该技术在VR领域只适合主机VR上的大型游戏,对于普通移动端的硬件设备来讲,算力及带宽承载具有较大压力。
基于场景的技术(SBA):用来描述场景的声场,其核心的底层算法是Ambisonics技术,可被映射到任意扬声器布局中。Ambisonics技术的特点是声源贴在提前渲染好的全景球上,即所有声源将被压缩在了这个球上。
Ambisonics作为全景声的一种录取格式,在上世纪70年代就已经问世,但一直没有获得商业上的成功。随着近几年VR,AR等相关领域的兴起,Ambisonics开始逐渐被讨论。与其它多声道环绕声格式不同,Ambisonics传输通道不带扬声器信号,允许音频工作者根据声源方向而不是扬声器的位置来思考设计,并且为听众提供了用于播放扬声器的布局和数量。Ambisonics音频格式可以解码任何扬声器阵列,并且可以完整地、不间断地还原音源而不受任何特定编解码播放系统的限制。
全景声双耳渲染技术可运用于多个场景,带来沉浸视听的无限想象力。
VR演唱会。现场混合360度视频和全景声音频, 同时将数据传输到相应的移动平台,并进行实时直播。让观众可以达到“不在现场,胜似现场”的感觉。
沉浸式影院。也可以称之为沉浸式投影,是一种成熟的高度沉浸式虚拟现实系统。它将高分辨率的立体投影技术、三维计算机图形技术和音响技术等有机地结合在一起,产生一个完全沉浸式的虚拟环境,大大增加观影的沉浸感。
智慧教育。沉浸式教学模式逐渐受到教育界的关注。例如,IBM研究院和伦斯勒理工学院联合开发的“认知沉浸室”,它能让学生置身于中国的餐馆、商场、园林等虚拟场景,与AI机器人练习汉语对话,大大提升了学生的学习兴趣和专注力。
虚拟会议。以Facebook基于VR开发的虚拟会议为例。而为了更贴近现实,Workrooms还加入了沉浸音频功能,让用户交谈时,声音的发出的方向跟他们所处的房间位置一致,从而进一步增加参会者的沉浸感。
随着AR、VR、5G、云计算等技术成熟度的提升,基于沉浸式音视频的通讯技术在元宇宙有望逐步从概念走向现实。根据IDC的市场评估,沉浸式视频云市场发展的趋势处于飞速发展的阶段。
评论comment