科技 > 互联网 > 正文

字节也入局了，世界模型到底是一门怎样的生意？

字母榜

下载客户端
独家抢先看

2026年04月25日 13:40:07 来自北京

这两天，世界模型这个概念非常火爆。

腾讯、阿里相继入局之后，现在好了，字节也算是“半入局”了。

字节正式发布了Seed3D 2.0，这是3D生成模型，你给它文字、图片、多视角图，甚至视频，它帮你生成3D模型。

Seed3D 2.0的第一个优势，是它把几何精度往生产级推了一步。

过去的3D生成，最大问题不是不够惊艳，是不够可靠。边缘发软、薄壁结构断裂、材质只在单一光照下好看，放进游戏引擎、仿真系统或机器人训练环境里，很快露馅。

Seed3D 2.0用两阶段DiT先搭整体结构，再补高精度细节，让锐边、曲面、复杂拓扑和薄结构更稳定。

第二个优势在材质。

别的模型追求的是RGB贴图，以达到视觉效果相似。但Seed3D 2.0追求的是统一生成PBR材质，让金属、粗糙度、反光边界在不同光照下保持物理一致。

这意味着生成结果不只是截图好看，而是更接近可进入真实渲染管线的资产。

更关键的是，Seed3D 2.0它现在不光是能生成3D物体，它还在生成的同时考虑这样一个问题“我生成的物体能不能放进接下来的场景，比如游戏建模、训练机器人这些”。

所以它支持部件级拆分、关节建模、URDF 输出，也能做场景组合和空间布局推理。

一个椅子不只是一个整体模型，而可以被拆成座面、靠背和底座。一个物体不只是摆在那里，而可以进入仿真、交互和运动系统。

所以它的真正优点，其实是把3D生成从内容生产工具，往具身智能、工业仿真和游戏资产基础设施推进了一步。

因此，虽然字节并没有大大方方承认Seed3D 2.0是世界模型，但从某种意义上来说，它算是半个世界模型。

关键点在于，Seed3D 2.0能理解物体的空间结构、部件关系和可操作性，这就是世界模型的特点。

不过Seed3D 2.0不能持续预测世界演化，也不理解力、碰撞、摩擦、破坏、流体等物理过程，这就是为啥它只算是半个。

世界模型大战

关于世界模型这件事，得先从李飞飞开始讲起。

4月14日，李飞飞的世界模型公司World Labs发布了Spark 2.0，它是一个Web端的3D高斯溅射渲染引擎。

这个东西的作用是什么？就是让你即使是用手机的浏览器，也能流畅地打开那些包含上亿个粒子的3D世界。

过去做3D场景，要么用传统的三角网格，文件巨大、加载慢；要么就是视频，看完就没了。

3D高斯溅射是个新路子，用数百万个半透明的椭球体来表示场景，渲染效果接近照片级，但问题是数据量太大。一个稍微复杂点的场景就能有几千万个splats，普通设备根本跑不动。

Spark 2.0的核心突破在三个地方。

第一是LoD系统，也就是细节层次技术。它会预先生成不同分辨率的数据，你离得近就显示高精度，离得远就自动降低细节。

第二是渐进式流式传输，场景不是一次性加载，而是边走边下载，就像看流媒体视频一样。

第三是虚拟内存管理，在GPU里划出一块固定的内存池，最多容纳1600万个splats，然后不断地把需要的数据块换进换出。

这套技术最早是World Labs为自己的产品Marble开发的。

Marble是个AI生成3D世界的工具，能根据文字或图片生成可以进入的3D场景。Spark 2.0解决的就是“最后一公里”的问题，它让生成的世界可以被分享、被嵌入网页、被任何人在任何设备上访问。

几乎在同一时间，英伟达发布了Lyra 2.0。

Lyra 2.0和李飞飞的World Labs虽说都是世界模型，不过前者想要解决的是长距离、大范围3D世界生成的一致性问题。

现有的视频生成模型有两个致命缺陷。

第一个叫“空间遗忘”，就是镜头走远了再回来，模型已经忘记之前那个地方长什么样，只能重新编一个，结果前后对不上。

第二个叫“时间漂移”，自回归生成的过程中，微小的误差会不断累积，生成几百帧之后，颜色、结构都开始变形。

Lyra 2.0的解决方案是维护一个空间记忆系统。

每生成一帧，就把它的3D几何信息存下来。下次要生成新视角时，先从记忆里检索出相关的历史帧，建立3D对应关系，然后再让生成模型补充细节。这样既保证了空间一致性，又能利用生成模型的想象力。

更关键的是，Lyra 2.0还用了一个叫“自增强历史训练”的技巧。

传统训练用的都是干净的真实数据，但实际使用时，模型看到的是自己之前生成的、可能有瑕疵的画面。Lyra 2.0在训练时故意喂给模型一些带有退化的历史帧，教它学会纠正漂移，而不是放大错误。

不过，英伟达做这个不是为了让你生成视频，Lyra 2.0的使用场景是机器人和自动驾驶。

真实世界的训练数据太贵、太危险，很多极端场景根本采集不到。如果能用AI生成足够真实、足够一致的虚拟环境，就可以在里面反复训练、测试，然后再部署到现实中。Lyra 2.0生成的世界可以直接导出为3DGS或mesh，接入Isaac Sim这样的仿真平台。

就在李飞飞发布Spark 2.0的第二天，腾讯正式发布并开源了HY-World 2.0。

腾讯的路线和前两家都不一样，它要做的是真正的3D资产生成。

什么叫3D资产？就是那些可以导入Blender、Unity、Unreal Engine的mesh文件和3DGS文件，可以被编辑、被复用、被二次开发的东西。

HY-World 2.0的工作流程分四步。

第一步是全景图生成，用HY-Pano 2.0模型把文字或单张图片扩展成360度全景。第二步是轨迹规划，用WorldNav算法分析全景图的几何和语义信息，自动规划出合理的相机运动路径。第三步是世界扩展，沿着规划好的轨迹，用WorldStereo 2.0模型生成多个关键帧视角，这些视角之间要保持空间一致性。第四步是世界组合，用WorldMirror 2.0把所有关键帧整合成统一的3DGS场景，再优化转换成高质量mesh。

这套流程里最难的是WorldStereo 2.0。

它要做的是新视角生成，也就是给定一个起始视角和相机运动参数，生成目标视角的画面。难点在于既要精确跟随相机控制，又要保持视觉细节，还要和之前生成的区域在几何上完美衔接。

腾讯的解决方案是引入记忆机制，让模型记住已经生成的区域的几何和外观特征，生成新区域时参考这些记忆，避免出现“穿帮”。

腾讯做这个的目的很明确，就是服务游戏和虚拟内容产业。传统的游戏场景制作需要美术、建模、贴图、灯光多个环节，一个高质量场景可能要几个人做几周。如果能用AI直接生成可编辑的3D资产，整个生产流程就被重构了。而且腾讯强调的是“可编辑”，生成出来的不是一段视频，而是可以在引擎里继续调整、继续开发的真实资产。

就在腾讯发布的几个小时后，阿里也扔出了自己的世界模型产品Happy Oyster。

现在好了，4家完全都是不同的，阿里想做的是实时交互的世界生成。

Happy Oyster有两个核心模式。第一个叫Wandering，漫游模式。你给它一句话或一张图，它就生成一个具备物理一致性的完整空间，然后你可以用第一人称视角在里面自由移动，用WASD键控制方向，用鼠标控制镜头。场景会随着你的移动不断延展，物体位置稳定，光照跟随视角变化。目前支持最长1分钟的连续实时控制。

第二个模式叫Directing，导演模式。这个更有意思，它不是生成完就结束，而是让你在生成过程中持续介入。视频播放到任意时刻，你都可以用文字、语音或图像指令来改变剧情、切换镜头、指挥角色。系统会实时响应，场景随之变化，然后继续往下演化。

阿里把Happy Oyster定位为“世界模拟器”。

传统的文生视频是输入prompt、等待渲染、得到成片，这是被动的。世界模拟器是主动的，它在持续地模拟世界的演化，用户可以随时介入、随时改变。这种交互方式更接近游戏，而不是看电影。

不过Happy Oyster的输出是音视频流，不是3D资产。它的优势在于互动体验和生成速度，而不是可以导出到游戏引擎。这也反映了阿里的产品思路，它瞄准的是内容创作、互动娱乐、虚拟直播这些场景，而不是游戏开发的底层工具链。

这个时间窗口里，国内还有两家公司值得一提。

群核科技在2025年发布了空间生成模型SpatialGen和Aholo空间智能开放平台，瞄准的是室内设计和具身智能场景。极佳视界的GigaWorld-1在3月底的WorldArena评测中拿下全球第一，这是一个专门面向机器人训练的具身世界模型。

为什么都在这个时间点发

这不是简单的撞车。这几家公司，无论是产品成熟度、技术路线、目标场景，那真是能都不一样的地方全都不一样，所以不可能碰巧在同一时间准备好。

更合理的解释是，大家都在等一个信号，而李飞飞的Spark 2.0就是那个发令枪。

过去两年，AI圈的主旋律是大语言模型。

从GPT-4到Claude，从Gemini到DeepSeek，模型越来越大，上下文越来越长，推理能力越来越强。

但到了2026年初，这条路开始有点难走了。各家的差距在快速缩小。继续讲“我的模型比你强5%”已经很难激起市场兴趣。

agent是去年的热点，但现在也进入了拥挤区。各家都在做能调用工具、能执行任务的AI助手，技术框架大同小异，真正的差异化越来越难。

市场需要一个新故事，一个足够大、足够性感、能够承载下一轮想象空间的新叙事。

世界模型就是这个新故事，听起来比视频生成更接近AGI。

更重要的是，世界模型是个足够宽泛的概念，可以把内容创作、游戏开发、机器人训练、自动驾驶、工业仿真、数字孪生这些完全不同的场景都装进去。

从技术层面看，世界模型的时机也确实到了。

过去两年，几条关键技术线开始汇合。

视频扩散模型提供了生成高质量动态画面的能力，3D高斯溅射提供了高效的3D表示方法，NeRF和三维重建技术提供了从2D到3D的转换路径，实时渲染技术提供了在消费级设备上打开大规模场景的可能，多模态理解让AI能够同时处理文字、图像、视频输入，物理仿真平台提供了训练和验证的环境。

这些技术单独看都不是新东西，但它们现在“熟了”。

视频模型的质量已经足够好，3DGS的渲染速度已经足够快，多模态模型的理解能力已经足够强。

当这些技术组合在一起，世界模型从概念变成了可以落地的产品。

事实上，李飞飞早在2025年6月16日旧金山的YC AI Startup School炉边谈话里，就已经把这条技术线索讲得很清楚。

她回顾了自己从ImageNet一路走来的历程，说最早推动数据驱动视觉方法时，很多人还不相信大规模数据会改变AI；2012年卷积神经网络的爆发让她第一次强烈意识到，视觉模型不会停留在分类和识别，而是会继续走向图像描述、视觉叙事，最后一路走到生成模型。

按这个脉络看，今天的世界模型不是突然冒出来的新概念，而是计算机视觉沿着“理解世界”这条主线自然演化到更高维度的结果。

更关键的是，她当时强调的核心词不是视频生成，也不是3D内容生产，而是空间智能。

她的判断很直接，如果AI想真正接近AGI，就不能只在语言里做概率预测，也不能只对二维像素做模式匹配，它必须理解三维空间、几何结构、物体关系和物理规律，知道世界是怎么被组织起来、又会如何随着时间变化。

这也是为什么空间智能看起来像下一个前沿，或者我换一种方式来表达：世界模型就是整个行业长期低估、一直没真正啃下来的硬骨头。

从这个角度再看最近这一波世界模型热潮，很多事情就更容易理解了。

大家争的表面上是渲染、生成、交互和资产化，底层争的其实都是谁更接近“让机器理解真实世界”这件事

。语言当然重要，但语言本质上是人类压缩过的符号系统。

三维世界却是连续的、动态的，充满遮挡、视角变化和物理约束。建模语言已经很难，建模空间往往更难。所以李飞飞当时那句话的分量很重，空间智能不是一个新标签，它是AI真正走向现实的物理世界之前必须补上的一课。

但光有技术还不够，还需要有人来定义标准。

谁先发布，谁就有机会影响行业对“世界模型”这个词的理解。李飞飞的World Labs在学术界和产业界都有巨大影响力，她发布Spark 2.0，等于是给世界模型这个赛道敲响了开场锣。其他公司如果不跟进，就会在这个新叙事里失去话语权。

所以腾讯、阿里、英伟达、字节都在最近发产品。不是因为产品刚好做完，而是因为这个时间窗口太关键了。

晚一周发布，市场的注意力可能就被其他热点带走了；早一周发布，又没有李飞飞这个“发令枪”来引爆话题。

同时，大厂们也都在抢夺定义权。世界模型现在还是个模糊的概念，到底什么算世界模型、世界模型应该输出什么格式、应该用什么方式交互、应该接入什么样的工具链，这些都还没有定论。

谁先占据某个关键位置，谁就有机会把自己的标准变成行业标准。

World Labs抢的是Web分发入口。如果未来所有的3D世界都通过Spark这样的渲染器在浏览器里打开，那World Labs就掌握了分发渠道。

腾讯抢的是3D资产生产入口，如果游戏公司都用HY-World 2.0来生成场景原型，那腾讯就掌握了内容生产工具。

阿里抢的是实时交互入口，如果互动内容都用Happy Oyster这样的世界模拟器来制作，那阿里就掌握了新的内容形态。

字节抢的是3D造物入口，如果未来游戏、机器人、工业仿真里的物体模型，都通过Seed3D 2.0从文字、图片或视频直接生成，并且自带几何、PBR 材质、部件拆分和关节结构，那字节就掌握了现实物体进入数字世界的第一道入口。

英伟达抢的是仿真训练入口，如果机器人公司都用Lyra 2.0生成的环境来训练模型，那英伟达就掌握了物理AI的基础设施。

所以本质上，是大家在通过不同的产品，抢占世界模型生态里的不同层级。

谁定义了世界的生成格式，谁定义了世界的渲染方式，谁定义了世界的交互范式，谁定义了世界进入仿真的路径，谁就可能成为下一代空间AI平台。

世界模型对企业的意义

还有一点，那就是世界模型不是一个孤立的技术，要把它放在企业实际的生产上，才能看清楚这个技术到底是用来干嘛的。

对World Labs来说，世界模型是一个完整的产品闭环。Marble负责生成3D世界，Spark负责渲染和分发。李飞飞的野心不是做一个工具，而是做一个平台。

未来如果有人想分享一个3D场景，不是发一个几个GB的文件让你下载，而是发一个链接，你在手机浏览器里点开就能进入。这个体验类似于你现在分享抖音视频，你并不是真的把视频下载下来，你只需要把那个二维码发给你的小伙伴，他就能扫码直达视频原始网页。

这个商业模式的关键在于降低门槛。

传统的3D内容创作需要专业软件、高性能硬件、复杂的技术知识。

Marble把创作门槛降到了“输入一句话”，Spark又把观看门槛降到了“点开一个链接”。当创作和消费的门槛都足够低，3D内容才可能像图片和视频一样成为互联网的基础设施。

对腾讯来说，世界模型是游戏和虚拟内容产业的生产力工具。腾讯是全球最大的游戏公司，它的核心资产是游戏IP和内容生产能力。HY-World 2.0瞄准的就是内容生产环节。

传统游戏开发，一个高质量的3A游戏场景动辄就需要几十个美术人员做几个月。

即使是那种小规模的独立游戏，场景制作也是最耗时的环节之一。如果AI能生成可编辑的3D资产，美术团队就可以从重复性的建模工作中解放出来，把精力放在创意设计和细节打磨上。

更重要的是，HY-World 2.0生成的是真正的3D资产，不是视频。视频只能看，资产可以用。你可以在Unity里调整光照，可以在Blender里修改模型，可以在Unreal里添加物理效果。

这种可编辑性是腾讯强调的核心价值，因为游戏开发需要的不是成品，而是可以继续加工的半成品。

对阿里来说，世界模型是内容形态的创新。阿里这几年在内容领域投入很大，从优酷到大麦，从直播到短视频，一直在寻找新的内容载体。Happy Oyster代表的是一种新的内容形态，介于视频和游戏之间。

传统视频是线性的，你只能从头看到尾。游戏是开放的，但制作成本高、门槛高。Happy Oyster想做的是“可交互的视频”或者“低门槛的游戏”。用户不需要学习复杂的操作，只需要用自然语言说出自己的想法，场景就会响应。这种体验可能适合互动剧、品牌营销、虚拟陪伴、教育培训这些场景。

阿里的商业逻辑是流量和变现。如果Happy Oyster能够创造出一种新的内容消费方式，就可能带来新的流量入口和变现模式。比如虚拟直播间，主播可以实时改变场景、召唤道具、创造剧情，观众的参与感会比传统直播强得多。再比如品牌营销，用户可以在虚拟世界里探索产品、体验场景，这种沉浸式的互动比传统广告更有吸引力。

开头我就提到了，Seed3D 2.0生成的是带几何结构、PBR 材质、部件拆分、关节关系的3D资产。换句话说，它生成的是“可以继续编辑、渲染、放进引擎、甚至接入仿真的东西”。

这对字节尤其重要。字节的优势一直是内容分发和创作者生态，他们的所有产品，都是在降低内容生产门槛。用剪映降低视频剪辑门槛、用抖音降低视频分发的门槛，再用Seedance降低视频生成的门槛。

Seed3D 2.0降低的是3D资产生产的门槛。

未来如果短视频创作者想做一个3D商品展示，不需要找建模师。电商商家想把商品变成可旋转、可互动的模型，不需要重做一套 3D 流程。游戏团队想快速生成道具原型，也可以直接从图片或视频开始。

所以，对字节来说，Seed3D 2.0的战略价值不是“我也有一个世界模型”，而是当内容互联网从二维视频走向三维空间，字节要继续掌握最低门槛、最高频的内容生产入口。

世界模型最终的竞争不会停留在模型能力上，而是会延伸到生态层面。

谁的输出格式被更多工具支持，谁的渲染器被更多开发者使用，谁的API被更多应用接入，谁能和Unity、Unreal、Isaac、浏览器这些关键平台深度整合，谁就有机会成为这个领域的标准制定者。

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

字节也入局了，世界模型到底是一门怎样的生意？

亲爱的凤凰网用户:

第三方浏览器推荐: