火山引擎智能3D视频启动商业化，计划落地直播应用

2025年12月24日 18:11:11

火山引擎多媒体实验室公布全新视频形态 —— 智能3D视频商业化方案，启动多场景商业化，包括将在抖音直播启动落地探索。

文｜牛慧

编｜赵艳秋

过去十几年，视频技术的核心命题只有一个，如何把画面拍得更清楚、传得更快。但在2025年，一个新的问题开始浮现，如果不再由镜头替我们选择视角，会发生什么？当观众“走进”画面、绕着人物观看，用自己的位置参与叙事，视频是否会从内容，变成一个空间？

在上周举办的火山引擎FORCE原动力大会上，视频云展区给出了一个答案。火山引擎多媒体实验室首次对外公布了一种全新的视频技术形态——智能3D视频的商业化方案。这支团队也正是多项抖音视频技术的源头。据悉，该技术已启动多场景商业化推进，其中包括计划于2026年在直播场景中的实际落地探索。

从看视频到“走进画面”

展台上，一部手机上一张普通照片已被转换成一张3D照片。我轻轻晃动手机，能看到人物周边更多的街区细节。这让我想起在得物或链家App里看商品和房源的体验，鞋子可以被旋转“端详”，房子也能被立体探索。不同的是，这里的视角以我为中心在移动，而App上那些则以物体为轴心。

展区内，一台普通笔记本电脑上跑着五个Demo，画面里是五位乐手，分别演奏古筝、小提琴和钢琴，看来这群多媒体实验室的小伙伴都很热爱音乐！在我日常观看的2D视频中，比如马克西姆演奏的钢琴神曲《出埃及记》，只能被动地跟着镜头走，看他俊朗的面部表情，手部或有力、或疾速的敲击，背部的起伏，以及周围身着长裙的的小提琴手与舞台灯光的配合。

但在这里，我可以自己“操控视角”。我可以切换到俯视视角，看演奏者手部的流畅动作；也可以从背后观察他在某一乐章中身体的起伏；从侧面或正面，看他与音乐完全沉浸在一起的表情。如果是一个乐团，我还可以随时移到周边乐手身上，看他们的演奏细节。

自动播放

接着，我戴上一台字节PICO VR。在我面前，一位小提琴手站在客厅中央，演奏着一段悠扬的乐曲。桌上摆着红酒，身后的落地窗外是绿色草坪和罗马柱风格的大理石建筑。我“走”近他，看见拉弓时手指和琴弦之间细微的颤动；又“走”到他左侧不远处，音乐从对应的空间方位传来。这种体验突然让我产生了一种沉浸感，就像是周末正在参加一场私人Party，环境优美，氛围轻松。

实验室的小伙伴告诉我，这些Demo意味着，这套技术已经可以用于制作六自由度（6DoF）视频内容，比如短剧、互动视频。

那么，什么是6DoF视频？

如果你戴过VR设备，可能有过这样的体验，你只能原地转头，看看四周。6DoF则名为“六自由度空间”。有部电影叫《六度空间》，它讲述了人与人之间社会关系的扩展，而6DoF说的是空间的扩展，比如前面的小提琴演奏者，他不仅可以在前后、左右、上下三个方向上移动，还可以有摇头、点头、歪头三类旋转自由度。有了6DoF，我们就可以在空间里“走动”、“靠近”、“绕着观察”。

这会带来非常新奇的内容形态。比如在悬疑短剧中，观众可以“置身其中”，如果你怀疑某人是凶手，可以从不同角度反复观察他的动作与表情；看到弹幕里有人提到某个细节，也可以立刻回应“你是从哪个角度看到的”。

还有一类是情感层面的需求。我们可以把家里的宠物制作成6DoF视频保存下来，甚至结合大语言模型做互动。当宠物有一天不得不离开我们，我们可以随时拿出来观看。也许在未来，随着技术进一步进步，我们还能“抚摸”它。

在展区的另一侧，是全息通信与实时空间视频的演示。一位多媒体实验室的小伙伴坐在一块白色屏幕前，面前摆放着5台相机。这并不是普通相机，它们通过有线将传感器连接，形成一组同步相机系统。当然，如果需要360度拍摄，实验室的轻量化技术仅需12台相机就能完成全域覆盖。

小伙伴冲着镜头打招呼，示意我们看不远处一个全息屏幕，他的动作已经实时展示在全息屏幕上。这背后是一系列“动作”：专业相机实时采集画面，传输给一台普通笔记本电脑，在这里上传云端，在云端实时重建，快速构建出这个立体场景，并通过CDN下发到观众的终端，实时渲染，实现观众从任意角度观看。

现场的全息屏幕像一台苹果显示器大小。当这个全息屏幕做到1:1尺寸时，这套技术将接近真实的“面对面交流”，它有望在远程会诊、异地探视等场景中，带来前所未有的临场感。

“空间视频”在探索各类应用

火山引擎多媒体实验室的这些技术成果，本质上都在解决前沿视频技术长期存在的三大难题，技术成熟度、制作与算力成本，以及工程化落地能力。它们的目标不是停留在论文或Demo，而是让空间视频真正进入可规模应用的现实场景。

实际上，2025 年正成为空间视频与全息通信加速落地的时间点。海外厂商中，谷歌动作尤为明显，其早些年已成立独立产品线Google Beam，押注新一代视频方向，今年将其接入谷歌会议系统，联合惠普推出专用设备，率先切入跨国会议场景。苹果则在端侧实现基于单目视觉的6DoF能力，但目前该能力主要适用于静态场景。

火山引擎多媒体实验室则跑通了空间视频直播场景，并实现了仅依赖一个或少数普通摄像头生成自由视角6DoF视频的能力，具备大众化应用条件。可以说，全球视频技术的演进正发生在同一节奏点上。

近年来，空间视频已零星出现在体育赛事、游戏和文化内容中，如世界杯转播、唐宫夜宴3D空间视频等。其商业潜力早已被看到，但此前受限于技术不成熟与高昂成本，未能规模化落地。随着算法、工程化和硬件成本的快速下降，市场机构预测，到2030年，空间视频相关市场规模有望达到千亿美元量级，覆盖直播、点播和全息通信等多个方向。

在直播场景中——直播竞争的关键在用户进入直播间后的“黄金几秒”，空间视频让观众可以晃动手机、“走进”直播间，自然延长了停留时长与互动深度。

在抖音秀场直播中，粉丝也不再受限于扁平的画面，能全方位捕捉主播的灵动舞姿与细腻神情，获得如同面对面互动的沉浸式陪伴。

在点播场景中——这里的“点播”，不是观众点播影片，而是内容创作者创作自由视角内容。当内容创作者制作了6DoF的博物馆内容，观众就可以按自己的节奏探索空间，有人沿路线参观，有人贴近展柜看细节，有人会在评论区互动，“这件青铜器内的铭文从哪个角度能看到？”这些会激发分享和二次传播。

在2D内容高度同质化的当下，随着AI眼镜和VR设备逐步普及，市场迫切需要更具新鲜感和互动性的3D内容。更重要的是，当创作者以更低成本拍真人内容，替代过去略显生硬的纯数字人，使舞蹈、悬疑短剧、沉浸式密室逃脱等内容的真实感大幅提升，你会体验到舞蹈的美感、旅馆中“女鬼”的惊吓感，尤其适合演唱会等OGC以及娱乐、媒体类PGC内容。

在全息通信场景中——空间视频让远程交流重新回到“面对面”。在一些演示中，1:1 的全息屏幕让远端的古筝老师仿佛走出画框，与学生直接互动。

这种体验为远程会诊、特殊教育、企业会议和高价值客户服务提供了新的可能。比如在企业协作中，参会者展示的是悬浮的全息沙盘，远端专家能共同查看三维模型并进行标注，这在地质勘探领域已经发生。在心理或医疗场景下，全息通信既保留真实的微表情和肢体反馈，又降低患者的心理压力；在金融、保险和奢侈品服务中，它更接近一次线下面谈，有助于建立信任。

全息通信从高端场景起步。目前火山引擎方案实现了消费级带宽（<10mbps），高清晰度高保真，采集成本/整体设备成本实现大幅度下降。随着设备和带宽门槛持续降低，这类应用也正从少数高端场景，走向更广泛的商业领域。

空间视频如何实时“跑起来”

火山引擎多媒体实验室的这套技术，最早是为点播场景服务，比如春晚或体育赛事大型舞台的“子弹时间”，画面定格在某一瞬间，观众可以360度观看。团队进一步思考，既然能把一个瞬间做成3D，能不能把每一个瞬间都做成3D，让观众来选择视角？于是逐步演化出了现在的空间视频技术。

而这些的背后是一整套技术链路与工程化能力的突破。火山引擎多媒体实验室团队投入近五年，在采集层、传输层和呈现层三个关键节点实现系统性突破。

在采集层——

4DGS（四维高斯泼溅）是动态场景重建与渲染的核心算法。相较3D，它多了时间维度，用大量带有位置、大小、颜色和透明度等属性的“高斯点”，通过叠加方式构建起会随时间变化的三维场景。这种方式有点像张大千山水画中的“泼彩”，将颜料“泼”“染”到画布上，自然扩散叠加，形成山水画面，而不是勾勒成形。

高斯泼溅是当前发展极快的方向，但传统方案通常依赖数十分钟的离线优化，难以应对实时场景。火山引擎视频云结合大模型技术，将人体动态重建加速到毫秒级，在A10显卡上实现了 30fps以上的实时4DGS 重建，成为业内首个支持实时4DGS直播的方案。

动态场景的另一大难点是长时序稳定性。传统方法在长时间播放时容易出现人物轮廓抖动、画面闪烁等问题。实验室的Dynamic GS技术，提出“进化式（Evolving）”3D高斯重建框架，使高斯点随场景变化自适应地生长、分裂与消亡，提升稳定性。同时，通过几何与外观解耦，人物不再被拍摄时的灯光“锁死”，能在虚拟环境中重新打光，生成更加逼真的光影效果。

在攻克专业设备的高质量重建方案后，火山引擎视频云进一步挑战普适性场景，用单目摄像头生成自由视角。

团队首创了变形场高斯，解决“只用一台普通摄像头拍动态场景，如何重建清晰三维世界”的行业难题。传统NeRF方法依赖从2D画面逆向推断三维结构，构建的动态场景容易模糊失真；而变形场高斯采用“前向映射”，直接在三维空间中建模物体如何运动，再投影到画面，在权威数据集上实现了10+的PSNR提升。

团队还引入生成式大模型技术，并与抖音团队合作，行业首发“空间视频直播”，只用一个摄像头拍摄内容，也能生成可前后左右走动、自由观看的6DoF视频空间。这样，空间视频从昂贵、专业的拍摄工程，变成普通创作者可用的表达工具，也让“全息通话”首次具备大众化落地条件。

在传输层——

在重建之后，还要解决传输问题。高斯数据天然不适合网络传输，实验室将其转化为标准视频流，直接复用现有视频传输与解码体系。通过压缩技术，空间视频的传输带宽被压缩到10Mbps以下，而部分同类方案仍需要60Mbps以上，且已实现PC、VR、手机等多终端播放。

这其中的核心在于基于渲染重要性的低损耗压缩策略。高斯点数量庞大、属性复杂，研发人员通过深度学习感知哪些区域对视觉最关键，对核心区域重点采样，在保证画质的同时大幅减少点数。这样，在最高500倍压缩率下，画质损失极低（PSNR < 3dB）。

具体实现上，一类方法将高斯点按规则投影到2D平面，生成可压缩的视频序列；另一类方法对三维空间进行切片，将不同空间块和属性映射为规则视频流。两条路线的共同点是，最大化复用成熟的视频软硬件能力。

在呈现层——

在呈现层，空间音频与空间视频的融合进一步提升沉浸体验。音频是构成“声画一体”6DoF体验的关键要素，在技术上，空间音频基于头相关传输函数（HRTF）与房间声学建模，让声音像现实世界一样具备方向、距离与空间感，画面与声音的位置始终对齐。用户转身看向说话的人，声音自然从对应方向传来；向前靠近，声音变得清晰；被物体遮挡时，声音也随之减弱。延迟极低，形成高度真实的临场感。

这些技术突破已获得国际学术界广泛认可。如4D GS研究成果入选SIGGRAPH 2025 Emerging Technologies；Dynamic GS 相关工作连续被CVPR、SIGGRAPH等顶级会议收录。4DGS压缩算法相关技术已形成9篇国际标准化组织MPEG技术提案，其中4篇纳入MPEG探索模型或核心实验。

压缩、传输与呈现能力的突破，使6DoF空间视频真正具备了实时分发和规模化部署条件，也让它从实验室走向可落地的产品形态。目前，全息通信已提供全套解决方案，点播和直播已对外提供关键点技术展示。

对火山引擎而言，空间视频并不是一次炫技式发布，而是在为下一代视频基础设施铺路。当采集不用依赖昂贵设备，传输不需要专线网络，呈现也能在手机等普通终端完成，空间视频将逐步具备进入规模化市场。

火山引擎智能3D视频启动商业化，计划落地直播应用

亲爱的凤凰网用户:

第三方浏览器推荐: