


这两天,世界模型这个概念非常火爆。
腾讯、阿里相继入局之后,现在好了,字节也算是“半入局”了。
字节正式发布了Seed3D 2.0,这是3D生成模型,你给它文字、图片、多视角图,甚至视频,它帮你生成3D模型。
Seed3D 2.0的第一个优势,是它把几何精度往生产级推了一步。
过去的3D生成,最大问题不是不够惊艳,是不够可靠。边缘发软、薄壁结构断裂、材质只在单一光照下好看,放进游戏引擎、仿真系统或机器人训练环境里,很快露馅。
Seed3D 2.0用两阶段DiT先搭整体结构,再补高精度细节,让锐边、曲面、复杂拓扑和薄结构更稳定。
第二个优势在材质。
别的模型追求的是RGB贴图,以达到视觉效果相似。但Seed3D 2.0追求的是统一生成PBR材质,让金属、粗糙度、反光边界在不同光照下保持物理一致。
这意味着生成结果不只是截图好看,而是更接近可进入真实渲染管线的资产。
更关键的是,Seed3D 2.0它现在不光是能生成3D物体,它还在生成的同时考虑这样一个问题“我生成的物体能不能放进接下来的场景,比如游戏建模、训练机器人这些”。
所以它支持部件级拆分、关节建模、URDF 输出,也能做场景组合和空间布局推理。
一个椅子不只是一个整体模型,而可以被拆成座面、靠背和底座。一个物体不只是摆在那里,而可以进入仿真、交互和运动系统。
所以它的真正优点,其实是把3D生成从内容生产工具,往具身智能、工业仿真和游戏资产基础设施推进了一步。
因此,虽然字节并没有大大方方承认Seed3D 2.0是世界模型,但从某种意义上来说,它算是半个世界模型。
关键点在于,Seed3D 2.0能理解物体的空间结构、部件关系和可操作性,这就是世界模型的特点。
不过Seed3D 2.0不能持续预测世界演化,也不理解力、碰撞、摩擦、破坏、流体等物理过程,这就是为啥它只算是半个。
01
世界模型大战
关于世界模型这件事,得先从李飞飞开始讲起。
4月14日,李飞飞的世界模型公司World Labs发布了Spark 2.0,它是一个Web端的3D高斯溅射渲染引擎。
这个东西的作用是什么?就是让你即使是用手机的浏览器,也能流畅地打开那些包含上亿个粒子的3D世界。
过去做3D场景,要么用传统的三角网格,文件巨大、加载慢;要么就是视频,看完就没了。
3D高斯溅射是个新路子,用数百万个半透明的椭球体来表示场景,渲染效果接近照片级,但问题是数据量太大。一个稍微复杂点的场景就能有几千万个splats,普通设备根本跑不动。
Spark 2.0的核心突破在三个地方。
第一是LoD系统,也就是细节层次技术。它会预先生成不同分辨率的数据,你离得近就显示高精度,离得远就自动降低细节。
第二是渐进式流式传输,场景不是一次性加载,而是边走边下载,就像看流媒体视频一样。
第三是虚拟内存管理,在GPU里划出一块固定的内存池,最多容纳1600万个splats,然后不断地把需要的数据块换进换出。
这套技术最早是World Labs为自己的产品Marble开发的。
Marble是个AI生成3D世界的工具,能根据文字或图片生成可以进入的3D场景。Spark 2.0解决的就是“最后一公里”的问题,它让生成的世界可以被分享、被嵌入网页、被任何人在任何设备上访问。
几乎在同一时间,英伟达发布了Lyra 2.0。
Lyra 2.0和李飞飞的World Labs虽说都是世界模型,不过前者想要解决的是长距离、大范围3D世界生成的一致性问题。
现有的视频生成模型有两个致命缺陷。
第一个叫“空间遗忘”,就是镜头走远了再回来,模型已经忘记之前那个地方长什么样,只能重新编一个,结果前后对不上。
第二个叫“时间漂移”,自回归生成的过程中,微小的误差会不断累积,生成几百帧之后,颜色、结构都开始变形。
Lyra 2.0的解决方案是维护一个空间记忆系统。
每生成一帧,就把它的3D几何信息存下来。下次要生成新视角时,先从记忆里检索出相关的历史帧,建立3D对应关系,然后再让生成模型补充细节。这样既保证了空间一致性,又能利用生成模型的想象力。
更关键的是,Lyra 2.0还用了一个叫“自增强历史训练”的技巧。
传统训练用的都是干净的真实数据,但实际使用时,模型看到的是自己之前生成的、可能有瑕疵的画面。Lyra 2.0在训练时故意喂给模型一些带有退化的历史帧,教它学会纠正漂移,而不是放大错误。
不过,英伟达做这个不是为了让你生成视频,Lyra 2.0的使用场景是机器人和自动驾驶。
真实世界的训练数据太贵、太危险,很多极端场景根本采集不到。如果能用AI生成足够真实、足够一致的虚拟环境,就可以在里面反复训练、测试,然后再部署到现实中。Lyra 2.0生成的世界可以直接导出为3DGS或mesh,接入Isaac Sim这样的仿真平台。
就在李飞飞发布Spark 2.0的第二天,腾讯正式发布并开源了HY-World 2.0。
腾讯的路线和前两家都不一样,它要做的是真正的3D资产生成。
什么叫3D资产?就是那些可以导入Blender、Unity、Unreal Engine的mesh文件和3DGS文件,可以被编辑、被复用、被二次开发的东西。
HY-World 2.0的工作流程分四步。
第一步是全景图生成,用HY-Pano 2.0模型把文字或单张图片扩展成360度全景。第二步是轨迹规划,用WorldNav算法分析全景图的几何和语义信息,自动规划出合理的相机运动路径。第三步是世界扩展,沿着规划好的轨迹,用WorldStereo 2.0模型生成多个关键帧视角,这些视角之间要保持空间一致性。第四步是世界组合,用WorldMirror 2.0把所有关键帧整合成统一的3DGS场景,再优化转换成高质量mesh。
这套流程里最难的是WorldStereo 2.0。
它要做的是新视角生成,也就是给定一个起始视角和相机运动参数,生成目标视角的画面。难点在于既要精确跟随相机控制,又要保持视觉细节,还要和之前生成的区域在几何上完美衔接。
腾讯的解决方案是引入记忆机制,让模型记住已经生成的区域的几何和外观特征,生成新区域时参考这些记忆,避免出现“穿帮”。
腾讯做这个的目的很明确,就是服务游戏和虚拟内容产业。传统的游戏场景制作需要美术、建模、贴图、灯光多个环节,一个高质量场景可能要几个人做几周。如果能用AI直接生成可编辑的3D资产,整个生产流程就被重构了。而且腾讯强调的是“可编辑”,生成出来的不是一段视频,而是可以在引擎里继续调整、继续开发的真实资产。
就在腾讯发布的几个小时后,阿里也扔出了自己的世界模型产品Happy Oyster。
现在好了,4家完全都是不同的,阿里想做的是实时交互的世界生成。
Happy Oyster有两个核心模式。第一个叫Wandering,漫游模式。你给它一句话或一张图,它就生成一个具备物理一致性的完整空间,然后你可以用第一人称视角在里面自由移动,用WASD键控制方向,用鼠标控制镜头。场景会随着你的移动不断延展,物体位置稳定,光照跟随视角变化。目前支持最长1分钟的连续实时控制。
第二个模式叫Directing,导演模式。这个更有意思,它不是生成完就结束,而是让你在生成过程中持续介入。视频播放到任意时刻,你都可以用文字、语音或图像指令来改变剧情、切换镜头、指挥角色。系统会实时响应,场景随之变化,然后继续往下演化。
阿里把Happy Oyster定位为“世界模拟器”。
传统的文生视频是输入prompt、等待渲染、得到成片,这是被动的。世界模拟器是主动的,它在持续地模拟世界的演化,用户可以随时介入、随时改变。这种交互方式更接近游戏,而不是看电影。
不过Happy Oyster的输出是音视频流,不是3D资产。它的优势在于互动体验和生成速度,而不是可以导出到游戏引擎。这也反映了阿里的产品思路,它瞄准的是内容创作、互动娱乐、虚拟直播这些场景,而不是游戏开发的底层工具链。
这个时间窗口里,国内还有两家公司值得一提。
群核科技在2025年发布了空间生成模型SpatialGen和Aholo空间智能开放平台,瞄准的是室内设计和具身智能场景。极佳视界的GigaWorld-1在3月底的WorldArena评测中拿下全球第一,这是一个专门面向机器人训练的具身世界模型。
02
为什么都在这个时间点发
这不是简单的撞车。这几家公司,无论是产品成熟度、技术路线、目标场景,那真是能都不一样的地方全都不一样,所以不可能碰巧在同一时间准备好。
更合理的解释是,大家都在等一个信号,而李飞飞的Spark 2.0就是那个发令枪。
过去两年,AI圈的主旋律是大语言模型。
从GPT-4到Claude,从Gemini到DeepSeek,模型越来越大,上下文越来越长,推理能力越来越强。
但到了2026年初,这条路开始有点难走了。各家的差距在快速缩小。继续讲“我的模型比你强5%”已经很难激起市场兴趣。
agent是去年的热点,但现在也进入了拥挤区。各家都在做能调用工具、能执行任务的AI助手,技术框架大同小异,真正的差异化越来越难。
市场需要一个新故事,一个足够大、足够性感、能够承载下一轮想象空间的新叙事。
世界模型就是这个新故事,听起来比视频生成更接近AGI。
更重要的是,世界模型是个足够宽泛的概念,可以把内容创作、游戏开发、机器人训练、自动驾驶、工业仿真、数字孪生这些完全不同的场景都装进去。
从技术层面看,世界模型的时机也确实到了。
过去两年,几条关键技术线开始汇合。
视频扩散模型提供了生成高质量动态画面的能力,3D高斯溅射提供了高效的3D表示方法,NeRF和三维重建技术提供了从2D到3D的转换路径,实时渲染技术提供了在消费级设备上打开大规模场景的可能,多模态理解让AI能够同时处理文字、图像、视频输入,物理仿真平台提供了训练和验证的环境。
这些技术单独看都不是新东西,但它们现在“熟了”。
视频模型的质量已经足够好,3DGS的渲染速度已经足够快,多模态模型的理解能力已经足够强。
当这些技术组合在一起,世界模型从概念变成了可以落地的产品。
事实上,李飞飞早在2025年6月16日旧金山的YC AI Startup School炉边谈话里,就已经把这条技术线索讲得很清楚。
她回顾了自己从ImageNet一路走来的历程,说最早推动数据驱动视觉方法时,很多人还不相信大规模数据会改变AI;2012年卷积神经网络的爆发让她第一次强烈意识到,视觉模型不会停留在分类和识别,而是会继续走向图像描述、视觉叙事,最后一路走到生成模型。
按这个脉络看,今天的世界模型不是突然冒出来的新概念,而是计算机视觉沿着“理解世界”这条主线自然演化到更高维度的结果。
更关键的是,她当时强调的核心词不是视频生成,也不是3D内容生产,而是空间智能。
她的判断很直接,如果AI想真正接近AGI,就不能只在语言里做概率预测,也不能只对二维像素做模式匹配,它必须理解三维空间、几何结构、物体关系和物理规律,知道世界是怎么被组织起来、又会如何随着时间变化。
这也是为什么空间智能看起来像下一个前沿,或者我换一种方式来表达:世界模型就是整个行业长期低估、一直没真正啃下来的硬骨头。
从这个角度再看最近这一波世界模型热潮,很多事情就更容易理解了。
大家争的表面上是渲染、生成、交互和资产化,底层争的其实都是谁更接近“让机器理解真实世界”这件事
。语言当然重要,但语言本质上是人类压缩过的符号系统。
三维世界却是连续的、动态的,充满遮挡、视角变化和物理约束。建模语言已经很难,建模空间往往更难。所以李飞飞当时那句话的分量很重,空间智能不是一个新标签,它是AI真正走向现实的物理世界之前必须补上的一课。
但光有技术还不够,还需要有人来定义标准。
谁先发布,谁就有机会影响行业对“世界模型”这个词的理解。李飞飞的World Labs在学术界和产业界都有巨大影响力,她发布Spark 2.0,等于是给世界模型这个赛道敲响了开场锣。其他公司如果不跟进,就会在这个新叙事里失去话语权。
所以腾讯、阿里、英伟达、字节都在最近发产品。不是因为产品刚好做完,而是因为这个时间窗口太关键了。
晚一周发布,市场的注意力可能就被其他热点带走了;早一周发布,又没有李飞飞这个“发令枪”来引爆话题。
同时,大厂们也都在抢夺定义权。世界模型现在还是个模糊的概念,到底什么算世界模型、世界模型应该输出什么格式、应该用什么方式交互、应该接入什么样的工具链,这些都还没有定论。
谁先占据某个关键位置,谁就有机会把自己的标准变成行业标准。
World Labs抢的是Web分发入口。如果未来所有的3D世界都通过Spark这样的渲染器在浏览器里打开,那World Labs就掌握了分发渠道。
腾讯抢的是3D资产生产入口,如果游戏公司都用HY-World 2.0来生成场景原型,那腾讯就掌握了内容生产工具。
阿里抢的是实时交互入口,如果互动内容都用Happy Oyster这样的世界模拟器来制作,那阿里就掌握了新的内容形态。
字节抢的是3D造物入口,如果未来游戏、机器人、工业仿真里的物体模型,都通过Seed3D 2.0从文字、图片或视频直接生成,并且自带几何、PBR 材质、部件拆分和关节结构,那字节就掌握了现实物体进入数字世界的第一道入口。
英伟达抢的是仿真训练入口,如果机器人公司都用Lyra 2.0生成的环境来训练模型,那英伟达就掌握了物理AI的基础设施。
所以本质上,是大家在通过不同的产品,抢占世界模型生态里的不同层级。
谁定义了世界的生成格式,谁定义了世界的渲染方式,谁定义了世界的交互范式,谁定义了世界进入仿真的路径,谁就可能成为下一代空间AI平台。
03
世界模型对企业的意义
还有一点,那就是世界模型不是一个孤立的技术,要把它放在企业实际的生产上,才能看清楚这个技术到底是用来干嘛的。
对World Labs来说,世界模型是一个完整的产品闭环。Marble负责生成3D世界,Spark负责渲染和分发。李飞飞的野心不是做一个工具,而是做一个平台。
未来如果有人想分享一个3D场景,不是发一个几个GB的文件让你下载,而是发一个链接,你在手机浏览器里点开就能进入。这个体验类似于你现在分享抖音视频,你并不是真的把视频下载下来,你只需要把那个二维码发给你的小伙伴,他就能扫码直达视频原始网页。
这个商业模式的关键在于降低门槛。
传统的3D内容创作需要专业软件、高性能硬件、复杂的技术知识。
Marble把创作门槛降到了“输入一句话”,Spark又把观看门槛降到了“点开一个链接”。当创作和消费的门槛都足够低,3D内容才可能像图片和视频一样成为互联网的基础设施。
对腾讯来说,世界模型是游戏和虚拟内容产业的生产力工具。腾讯是全球最大的游戏公司,它的核心资产是游戏IP和内容生产能力。HY-World 2.0瞄准的就是内容生产环节。
传统游戏开发,一个高质量的3A游戏场景动辄就需要几十个美术人员做几个月。
即使是那种小规模的独立游戏,场景制作也是最耗时的环节之一。如果AI能生成可编辑的3D资产,美术团队就可以从重复性的建模工作中解放出来,把精力放在创意设计和细节打磨上。
更重要的是,HY-World 2.0生成的是真正的3D资产,不是视频。视频只能看,资产可以用。你可以在Unity里调整光照,可以在Blender里修改模型,可以在Unreal里添加物理效果。
这种可编辑性是腾讯强调的核心价值,因为游戏开发需要的不是成品,而是可以继续加工的半成品。
对阿里来说,世界模型是内容形态的创新。阿里这几年在内容领域投入很大,从优酷到大麦,从直播到短视频,一直在寻找新的内容载体。Happy Oyster代表的是一种新的内容形态,介于视频和游戏之间。
传统视频是线性的,你只能从头看到尾。游戏是开放的,但制作成本高、门槛高。Happy Oyster想做的是“可交互的视频”或者“低门槛的游戏”。用户不需要学习复杂的操作,只需要用自然语言说出自己的想法,场景就会响应。这种体验可能适合互动剧、品牌营销、虚拟陪伴、教育培训这些场景。
阿里的商业逻辑是流量和变现。如果Happy Oyster能够创造出一种新的内容消费方式,就可能带来新的流量入口和变现模式。比如虚拟直播间,主播可以实时改变场景、召唤道具、创造剧情,观众的参与感会比传统直播强得多。再比如品牌营销,用户可以在虚拟世界里探索产品、体验场景,这种沉浸式的互动比传统广告更有吸引力。
开头我就提到了,Seed3D 2.0生成的是带几何结构、PBR 材质、部件拆分、关节关系的3D资产。换句话说,它生成的是“可以继续编辑、渲染、放进引擎、甚至接入仿真的东西”。
这对字节尤其重要。字节的优势一直是内容分发和创作者生态,他们的所有产品,都是在降低内容生产门槛。用剪映降低视频剪辑门槛、用抖音降低视频分发的门槛,再用Seedance降低视频生成的门槛。
Seed3D 2.0降低的是3D资产生产的门槛。
未来如果短视频创作者想做一个3D商品展示,不需要找建模师。电商商家想把商品变成可旋转、可互动的模型,不需要重做一套 3D 流程。游戏团队想快速生成道具原型,也可以直接从图片或视频开始。
所以,对字节来说,Seed3D 2.0的战略价值不是“我也有一个世界模型”,而是当内容互联网从二维视频走向三维空间,字节要继续掌握最低门槛、最高频的内容生产入口。
世界模型最终的竞争不会停留在模型能力上,而是会延伸到生态层面。
谁的输出格式被更多工具支持,谁的渲染器被更多开发者使用,谁的API被更多应用接入,谁能和Unity、Unreal、Isaac、浏览器这些关键平台深度整合,谁就有机会成为这个领域的标准制定者。
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”