卸任米哈游董事长后,蔡浩宇在新加坡造“活人”
科技
科技 > 人工智能 > 正文

卸任米哈游董事长后,蔡浩宇在新加坡造“活人”

在AI视频生成领域,Seedance 2.0带领着全行业疯狂内卷。

在短短的15秒之内,只有能给观众带来电影级别视觉享受的模型,才有可能在这场行业竞争中脱颖而出。

然而,一位灵魂大法师却另辟蹊径,在另一个维度上研发出了新的“杀器”。

这个看起来十分中二的称号,其实属于米哈游的前任董事长蔡浩宇。

这位目前仍为米哈游第一大股东的法师,自卸任董事长职务后,悄悄在新加坡开辟了一片全新的战场,创立了新的AGI公司Anuttacon。

如今,LPM 1.0这款钻研许久的最新模型发布,让AI视频成功从离线剪辑跨越到了实时的生命体。

更重要的是,这款模型一改往日视频生成领域只关注画面是否好看的习惯,转而让虚拟角色在数个小时的交互中真正拥有灵魂。

而技术的突破,背后往往隐藏着算力、数据和商业壁垒的深层博弈。

01

AI角色开始呼吸

Seedance 2.0全球称霸、Sora被OpenAI无情关停,这些重磅消息发出后,AI视频生成对于大众来说早已不再陌生。

虽然AI生成的视频已经足够逼真,令人难以分辨,但一个长期存在于计算机图形学和AI视觉领域的困境仍未得到解决:

表现质量(像不像)、实时推理(能不能秒回)和长程稳定性(时间长了会不会崩溃)不可兼得,也被称为“表演三难困境(Performance Trilemma)”。

因此,当用户打开即梦、可灵、Sora和Veo时,最先看到的是它们在短视频领域上堪称无敌的表现,但之后一旦涉及长时间、实时等现实中确切存在的需求,这些模型的弱点瞬间暴露无遗。

简单来说,它们已经是非常优秀的摄影师,但还不是合格的表演者。

目前,AI视频生成的时间上限通常不超过30秒,主要的原因就在于自回归漂移。

只要生成时间被拉长,微小的误差就会以远超线性的速度累积,最终导致常见的角色脸部特征骤变、身份不一致或动作不合理等现象。

但LPM 1.0却实现了一个惊人的突破:它实现了真正意义上的“无限时长”视频生成。

在官网上,demo演示了夸张的45分钟视频。

这种跨越在技术层面上堪称离谱,毕竟单纯堆砌算力是无法从根本上解决这个问题的。

LPM模型的诀窍,在于引入了在线流式生成架构(Online LPM)。

通过一种名为分布匹配蒸馏的四阶段训练方式,LPM模型将一个170亿参数的大型扩散模型直接压缩成了一个“主干-精炼器”结构。

其中,主干网络负责稳定视频的粗略轨迹,而精炼器负责还原高保真的表情细节。

这种设计让模型在内存占用恒定的情况下,能够维持近乎永恒的身份一致性。

当然,在人类看来,真正的表演不可能只有“说话”,还要在合适的时机做出合适的反应。

LPM 1.0首次实现了全双工的音视频对话,能够同时处理两路音频流。

其中一路是AI自己在说的话,用于驱动口型同步;另一路则是用户在说的话,用于驱动实时反应。

如此一来,AI就能根据用户的语气和停顿,像人类一样产生点头、挑眉等微表情。

尽管受限于技术取舍,LPM模型存在画面不够真实、清晰等问题,但这种长时间实时交互的能力,足以让虚拟角色从复读机进化为数字化的生命。

02

“米哈游基因”也是一种大数据

说起视频生成,就不得不提到Seedance 2.0这个行业榜样。

字节跳动TikTok海量短视频数据的喂养,正是它成功的关键。

但掌握米哈游41%股权、身为最大股东的蔡浩宇,能为Anuttacon这家新AGI公司带来什么?

米哈游这家知名游戏公司积累的数据,又能给AI领域提供什么便利?

答案就在于,精度胜过维度,工业标准胜过原始规模。

这并非意味着LPM 1.0优于Seedance 2.0,更准确的说法应当是两家企业各自走出了多模态领域通往精细化的技术路线。

相比于字节拥有充足的高质量泛娱乐化、非结构化数据,米哈游的核心壁垒是将“人类表演学”进行了数字工业化的解构。

在LPM 1.0的技术报告中,被详细论述的“身份感知参考图像管线”完美地体现了米哈游的独特基因:

这款模型不仅需要一张照片,还需要全局外观、多视角图像甚至是8类预定义的表情范例。

相比于从海量无标注视频中提取特征,Anuttacon已经能够提供高度结构化的“表演逻辑”数据,例如78种精细情感和超过5000个动作描述符。

这种对美感和角色塑造的经验积累和极高品控标准,是坐拥海量数据的通用短视频平台反而难以实现的。

由此看来,蔡浩宇在领英上给自己起的称号“灵魂大法师(AI Soulcaster)”并非浪得虚名,其产品开发逻辑正是要让AI模拟人类表演中的下意识反应。

LPM在训练阶段对倾听行为多达350万次的精细标注,准确命中了目前AI虚拟角色设计的痛点:大多数AI虚拟角色“能说但不会听”。

这也是米哈游十几年的游戏开发经验带来的红利,Anuttacon拥有一套完整的人类交互评价体系,能够让模型学会只有人类才会的对话间隙的呼吸、犹豫和停顿。

这种“工业审美”与“流量数据”是完全不同的技术路线,因此模型表现出来的结果也截然不同:

相比于Seedance 2.0栩栩如生的画面,LPM 1.0在角色表现力方面实现了电影级的质感,而这种质感,同样是实现“去AI味”和虚拟世界沉浸感的护城河。

03

不开源的商业必然

在官网的最后,Anuttacon明确表示这款模型不打算开源模型权重和源代码,也不会以API和产品服务等形式进行商业化盈利。

作为一个性能足以投入工业级生产、甚至足以驱动NPC实时交互的模型,LPM 1.0选择完全不开源是符合商业理性的必然选择。

原因也很简单,在AI视频生成的虚拟角色这个细分领域,它不仅是一套算法和一个模型,更是一套完整的视觉引擎。

在当前AI的竞争格局中,拥有稳定、实时、长效生成可交互数字化角色的能力,无异于掌握了虚拟世界的唯一门票。

话虽如此,摆在眼前的商业成本仍然是一个绕不过去的难题:

实时生成480P甚至720P的视频,对算力的消耗极其惊人。

LPM虽然经过了极致的优化能让单GPU约0.35秒处理1秒的视频,但在大规模并发的实际应用场景下,硬件成本和运维压力巨大。

从C端游戏产品来看,以高价值产品支撑高算力支出这一策略的可靠性存疑。

Anuttacon上一款游戏《星之低语》采用买断制上架steam平台,这款以AI实时交互为核心的创新概念游戏试图带给用户前所未有的情感体验。

不过,根据反馈,该游戏的对话仍存在上下文承接问题,市场广泛认为该游戏仍处于AI技术验证阶段,33.99元的低定价虽然获得了一定的市场认可,但显然无法与算力成本比较。

C端验证虽然受到阻碍,但LPM的底层能力恰好能平移到对稳定性要求更加严苛的B端场景,也就是说,Anuttacon可以走Agent已经走过的路。

官网提到的虚拟主播、AI导师、客服等常见场景对长时间稳定性都有刚需,相比雇佣人类,LPM驱动的AI角色显然更适合7天24小时的运行模式,再加上能节省昂贵的动捕设备成本,最终的综合成本极具竞争力。

长远来看,若是把LPM作为构建UGC平台的基础设施,就能打破传统UGC在建模和动画等方面面临的门槛限制。

LPM的核心逻辑就在于用户只需提供一张照片和一段话,AI即可完成所有的表演。

当内容创作的专业门槛进一步降低,离全新的互动媒体形式诞生也就不远了。

04

结语

综上所述,LPM 1.0并不是一个试图在画质上硬刚Seedance 2.0的模型,而是选择了表演实时化和生命数字化的垂直路径。

在行业普遍追求更高质量的像素时,LPM追求的是更久的一致性。

或许,这也是蔡浩宇作为米哈游联合创始人对“体验”这个词的深刻理解。

在游戏里,角色设定只要“崩坏”一次,沉浸感就会永远消失。

而在AI领域,LPM的目标就是杜绝现有AI因缺乏情感共鸣带来的恐怖谷效应。

实时生成的呼吸感和微表情,宣布了虚拟角色在线交互时代的开启。

即使算力成本高昂,只要能在高端互动叙事等特定领域形成不可替代性,同样可以掌握定价权。

从实时驱动对话的AI游戏,到能说能听的多模态模型,Anuttacon已经在这场无限时长的博弈中抢占了制高点。

而蔡浩宇的商业野心,也绝不止于米哈游。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载