
火山引擎多媒体实验室公布全新视频形态 —— 智能3D视频商业化方案,启动多场景商业化,包括将在抖音直播启动落地探索。
文|牛慧
编|赵艳秋
过去十几年,视频技术的核心命题只有一个,如何把画面拍得更清楚、传得更快。但在2025年,一个新的问题开始浮现,如果不再由镜头替我们选择视角,会发生什么?当观众“走进”画面、绕着人物观看,用自己的位置参与叙事,视频是否会从内容,变成一个空间?
在上周举办的火山引擎FORCE原动力大会上,视频云展区给出了一个答案。火山引擎多媒体实验室首次对外公布了一种全新的视频技术形态——智能3D视频的商业化方案。这支团队也正是多项抖音视频技术的源头。据悉,该技术已启动多场景商业化推进,其中包括计划于2026年在直播场景中的实际落地探索。
01
从看视频到“走进画面”
展台上,一部手机上一张普通照片已被转换成一张3D照片。我轻轻晃动手机,能看到人物周边更多的街区细节。这让我想起在得物或链家App里看商品和房源的体验,鞋子可以被旋转“端详”,房子也能被立体探索。不同的是,这里的视角以我为中心在移动,而App上那些则以物体为轴心。
展区内,一台普通笔记本电脑上跑着五个Demo,画面里是五位乐手,分别演奏古筝、小提琴和钢琴,看来这群多媒体实验室的小伙伴都很热爱音乐!在我日常观看的2D视频中,比如马克西姆演奏的钢琴神曲《出埃及记》,只能被动地跟着镜头走,看他俊朗的面部表情,手部或有力、或疾速的敲击,背部的起伏,以及周围身着长裙的的小提琴手与舞台灯光的配合。
但在这里,我可以自己“操控视角”。我可以切换到俯视视角,看演奏者手部的流畅动作;也可以从背后观察他在某一乐章中身体的起伏;从侧面或正面,看他与音乐完全沉浸在一起的表情。如果是一个乐团,我还可以随时移到周边乐手身上,看他们的演奏细节。
接着,我戴上一台字节PICO VR。在我面前,一位小提琴手站在客厅中央,演奏着一段悠扬的乐曲。桌上摆着红酒,身后的落地窗外是绿色草坪和罗马柱风格的大理石建筑。我“走”近他,看见拉弓时手指和琴弦之间细微的颤动;又“走”到他左侧不远处,音乐从对应的空间方位传来。这种体验突然让我产生了一种沉浸感,就像是周末正在参加一场私人Party,环境优美,氛围轻松。
实验室的小伙伴告诉我,这些Demo意味着,这套技术已经可以用于制作六自由度(6DoF)视频内容,比如短剧、互动视频。
那么,什么是6DoF视频?
如果你戴过VR设备,可能有过这样的体验,你只能原地转头,看看四周。6DoF则名为“六自由度空间”。有部电影叫《六度空间》,它讲述了人与人之间社会关系的扩展,而6DoF说的是空间的扩展,比如前面的小提琴演奏者,他不仅可以在前后、左右、上下三个方向上移动,还可以有摇头、点头、歪头三类旋转自由度。有了6DoF,我们就可以在空间里“走动”、“靠近”、“绕着观察”。
这会带来非常新奇的内容形态。比如在悬疑短剧中,观众可以“置身其中”,如果你怀疑某人是凶手,可以从不同角度反复观察他的动作与表情;看到弹幕里有人提到某个细节,也可以立刻回应“你是从哪个角度看到的”。
还有一类是情感层面的需求。我们可以把家里的宠物制作成6DoF视频保存下来,甚至结合大语言模型做互动。当宠物有一天不得不离开我们,我们可以随时拿出来观看。也许在未来,随着技术进一步进步,我们还能“抚摸”它。
在展区的另一侧,是全息通信与实时空间视频的演示。一位多媒体实验室的小伙伴坐在一块白色屏幕前,面前摆放着5台相机。这并不是普通相机,它们通过有线将传感器连接,形成一组同步相机系统。当然,如果需要360度拍摄,实验室的轻量化技术仅需12台相机就能完成全域覆盖。
小伙伴冲着镜头打招呼,示意我们看不远处一个全息屏幕,他的动作已经实时展示在全息屏幕上。这背后是一系列“动作”:专业相机实时采集画面,传输给一台普通笔记本电脑,在这里上传云端,在云端实时重建,快速构建出这个立体场景,并通过CDN下发到观众的终端,实时渲染,实现观众从任意角度观看。
现场的全息屏幕像一台苹果显示器大小。当这个全息屏幕做到1:1尺寸时,这套技术将接近真实的“面对面交流”,它有望在远程会诊、异地探视等场景中,带来前所未有的临场感。
02
“空间视频”在探索各类应用
火山引擎多媒体实验室的这些技术成果,本质上都在解决前沿视频技术长期存在的三大难题,技术成熟度、制作与算力成本,以及工程化落地能力。它们的目标不是停留在论文或Demo,而是让空间视频真正进入可规模应用的现实场景。
实际上,2025 年正成为空间视频与全息通信加速落地的时间点。海外厂商中,谷歌动作尤为明显,其早些年已成立独立产品线Google Beam,押注新一代视频方向,今年将其接入谷歌会议系统,联合惠普推出专用设备,率先切入跨国会议场景。苹果则在端侧实现基于单目视觉的6DoF能力,但目前该能力主要适用于静态场景。
火山引擎多媒体实验室则跑通了空间视频直播场景,并实现了仅依赖一个或少数普通摄像头生成自由视角6DoF视频的能力,具备大众化应用条件。可以说,全球视频技术的演进正发生在同一节奏点上。
近年来,空间视频已零星出现在体育赛事、游戏和文化内容中,如世界杯转播、唐宫夜宴3D空间视频等。其商业潜力早已被看到,但此前受限于技术不成熟与高昂成本,未能规模化落地。随着算法、工程化和硬件成本的快速下降,市场机构预测,到2030年,空间视频相关市场规模有望达到千亿美元量级,覆盖直播、点播和全息通信等多个方向。
在直播场景中——直播竞争的关键在用户进入直播间后的“黄金几秒”,空间视频让观众可以晃动手机、“走进”直播间,自然延长了停留时长与互动深度。
在抖音秀场直播中,粉丝也不再受限于扁平的画面,能全方位捕捉主播的灵动舞姿与细腻神情,获得如同面对面互动的沉浸式陪伴。
在点播场景中——这里的“点播”,不是观众点播影片,而是内容创作者创作自由视角内容。当内容创作者制作了6DoF的博物馆内容,观众就可以按自己的节奏探索空间,有人沿路线参观,有人贴近展柜看细节,有人会在评论区互动,“这件青铜器内的铭文从哪个角度能看到?”这些会激发分享和二次传播。
在2D内容高度同质化的当下,随着AI眼镜和VR设备逐步普及,市场迫切需要更具新鲜感和互动性的3D内容。更重要的是,当创作者以更低成本拍真人内容,替代过去略显生硬的纯数字人,使舞蹈、悬疑短剧、沉浸式密室逃脱等内容的真实感大幅提升,你会体验到舞蹈的美感、旅馆中“女鬼”的惊吓感,尤其适合演唱会等OGC以及娱乐、媒体类PGC内容。
在全息通信场景中——空间视频让远程交流重新回到“面对面”。在一些演示中,1:1 的全息屏幕让远端的古筝老师仿佛走出画框,与学生直接互动。
这种体验为远程会诊、特殊教育、企业会议和高价值客户服务提供了新的可能。比如在企业协作中,参会者展示的是悬浮的全息沙盘,远端专家能共同查看三维模型并进行标注,这在地质勘探领域已经发生。在心理或医疗场景下,全息通信既保留真实的微表情和肢体反馈,又降低患者的心理压力;在金融、保险和奢侈品服务中,它更接近一次线下面谈,有助于建立信任。
全息通信从高端场景起步。目前火山引擎方案实现了消费级带宽(<10mbps),高清晰度高保真,采集成本/整体设备成本实现大幅度下降。随着设备和带宽门槛持续降低,这类应用也正从少数高端场景,走向更广泛的商业领域。
03
空间视频如何实时“跑起来”
火山引擎多媒体实验室的这套技术,最早是为点播场景服务,比如春晚或体育赛事大型舞台的“子弹时间”,画面定格在某一瞬间,观众可以360度观看。团队进一步思考,既然能把一个瞬间做成3D,能不能把每一个瞬间都做成3D,让观众来选择视角?于是逐步演化出了现在的空间视频技术。
而这些的背后是一整套技术链路与工程化能力的突破。火山引擎多媒体实验室团队投入近五年,在采集层、传输层和呈现层三个关键节点实现系统性突破。
在采集层——
4DGS(四维高斯泼溅)是动态场景重建与渲染的核心算法。相较3D,它多了时间维度,用大量带有位置、大小、颜色和透明度等属性的“高斯点”,通过叠加方式构建起会随时间变化的三维场景。这种方式有点像张大千山水画中的“泼彩”,将颜料“泼”“染”到画布上,自然扩散叠加,形成山水画面,而不是勾勒成形。
高斯泼溅是当前发展极快的方向,但传统方案通常依赖数十分钟的离线优化,难以应对实时场景。火山引擎视频云结合大模型技术,将人体动态重建加速到毫秒级,在A10显卡上实现了 30fps以上的实时4DGS 重建,成为业内首个支持实时4DGS直播的方案。
动态场景的另一大难点是长时序稳定性。传统方法在长时间播放时容易出现人物轮廓抖动、画面闪烁等问题。实验室的Dynamic GS技术,提出“进化式(Evolving)”3D高斯重建框架,使高斯点随场景变化自适应地生长、分裂与消亡,提升稳定性。同时,通过几何与外观解耦,人物不再被拍摄时的灯光“锁死”,能在虚拟环境中重新打光,生成更加逼真的光影效果。
在攻克专业设备的高质量重建方案后,火山引擎视频云进一步挑战普适性场景,用单目摄像头生成自由视角。
团队首创了变形场高斯,解决“只用一台普通摄像头拍动态场景,如何重建清晰三维世界”的行业难题。传统NeRF方法依赖从2D画面逆向推断三维结构,构建的动态场景容易模糊失真;而变形场高斯采用“前向映射”,直接在三维空间中建模物体如何运动,再投影到画面,在权威数据集上实现了10+的PSNR提升。
团队还引入生成式大模型技术,并与抖音团队合作,行业首发“空间视频直播”,只用一个摄像头拍摄内容,也能生成可前后左右走动、自由观看的6DoF视频空间。这样,空间视频从昂贵、专业的拍摄工程,变成普通创作者可用的表达工具,也让“全息通话”首次具备大众化落地条件。
在传输层——
在重建之后,还要解决传输问题。高斯数据天然不适合网络传输,实验室将其转化为标准视频流,直接复用现有视频传输与解码体系。通过压缩技术,空间视频的传输带宽被压缩到10Mbps以下,而部分同类方案仍需要60Mbps以上,且已实现PC、VR、手机等多终端播放。
这其中的核心在于基于渲染重要性的低损耗压缩策略。高斯点数量庞大、属性复杂,研发人员通过深度学习感知哪些区域对视觉最关键,对核心区域重点采样,在保证画质的同时大幅减少点数。这样,在最高500倍压缩率下,画质损失极低(PSNR < 3dB)。
具体实现上,一类方法将高斯点按规则投影到2D平面,生成可压缩的视频序列;另一类方法对三维空间进行切片,将不同空间块和属性映射为规则视频流。两条路线的共同点是,最大化复用成熟的视频软硬件能力。
在呈现层——
在呈现层,空间音频与空间视频的融合进一步提升沉浸体验。音频是构成“声画一体”6DoF体验的关键要素,在技术上,空间音频基于头相关传输函数(HRTF)与房间声学建模,让声音像现实世界一样具备方向、距离与空间感,画面与声音的位置始终对齐。用户转身看向说话的人,声音自然从对应方向传来;向前靠近,声音变得清晰;被物体遮挡时,声音也随之减弱。延迟极低,形成高度真实的临场感。
这些技术突破已获得国际学术界广泛认可。如4D GS研究成果入选SIGGRAPH 2025 Emerging Technologies;Dynamic GS 相关工作连续被CVPR、SIGGRAPH等顶级会议收录。4DGS压缩算法相关技术已形成9篇国际标准化组织MPEG技术提案,其中4篇纳入MPEG探索模型或核心实验。
压缩、传输与呈现能力的突破,使6DoF空间视频真正具备了实时分发和规模化部署条件,也让它从实验室走向可落地的产品形态。目前,全息通信已提供全套解决方案,点播和直播已对外提供关键点技术展示。
对火山引擎而言,空间视频并不是一次炫技式发布,而是在为下一代视频基础设施铺路。当采集不用依赖昂贵设备,传输不需要专线网络,呈现也能在手机等普通终端完成,空间视频将逐步具备进入规模化市场。