科技 > 人工智能 > 正文

米哈游蔡浩宇AI公司首个视频模型曝光了

量子位

下载客户端
独家抢先看

2026年04月11日 13:30:00 来自北京

梦瑶发自凹非寺

量子位 | 公众号 QbitAI

米哈游蔡浩宇的AI公司Anuttacon，首个视频模型正式曝光！

Anuttacon技术团队成员@Ailing Zeng，在X上展示了全新视频角色表演生成模型——LPM 1.0。

主打一个让AI角色人物表现得更《出神入化》～

大家先看下面这位AI小哥，生动演绎了一场16秒变换N种情绪的超绝大戏，你就说这情绪拿捏到不到位吧：

自动播放

不仅如此，在LPM 1.0模型中，连让AI人物「听别人说话」这事儿也同步进化了。（天呐.jpg）

哪怕不张口、只是安静坐着当一个认真聆听的人，角色的表情、眼神和情绪反馈也都在线，这情绪价值给的：

自动播放

此外，我们还可以和AI进行「实时互动」。

只要对着电脑屏幕说一句自己的甲方需求，屏幕里的AI角色就能够根据指令当下做出反应。

哪怕是在长时间交互下，依旧能保证人物形象稳定一致，be like：

自动播放

表情如此之自然、情绪如此之到位、交互如此之实时，网友直接就是一个《坐不住》，直言：

实时、支持无限长度的AI角色终于来了！！！（大声.jpg)

（说真的，我大早上在官网看了这几个demo效果后，属实快分不出来AI不AI了…）

LPM 1.0：主打一个让AI角色变「戏精」

其实对今天的AI视频产品来说，能把人物角色的表情生动演绎出来，早就不算什么新鲜事了。

但是LPM 1.0模型特殊就特殊在吧——

我们能通过文本、音频和图像三种多模态形式，轻松生成一个能实时对话、会听会说、还能持续保持人物一致性的动态角色。

让AI角色在视频里，更会演、更会听、更会说，还能一直像同一个人～

我也帮友友们浅浅总结了一下LPM 1.0模型最核心的几大「能力亮点」：

超绝情绪演绎能力：能同步生成说话、倾听、微表情和自然动作，情绪表演更到位。

实时视频生成能力：通过在线生成器，用户能实现和AI角色实现实时交互，适合做对话型角色。

根据对方说话做出反应的能力：角色可以一边听用户说话一边做出表情反应，等轮到角色回答时，它再根据合成语音生成说话视频。

长时间人物一致性：哪怕和AI的互动时间延长之后，AI角色依旧尽量维持同一个人的外观和身份特征。

emm…这些能力是不是听上去有点乏味？没关系，我们直接让AI演员们上才艺！

先来说说大家很感兴趣也很有意思的——「超绝情绪演绎能力」。

具体来说，模型在口型同步、呼吸节奏、情绪表达维度上的表现更贴近人类的表现方式，呈现效果也就更有层次。

比如在下面这个堪比好莱坞大片的视频，两位男子仅仅在几秒钟的时间，就生动演绎出了多个神态——

自动播放

前一秒还是犹豫和迟疑，下一秒就出现抿嘴、咬牙、叹气这类更细小的动作，能让人明显感受到心理状态在变化。

(老戏骨啊老戏骨，建议送去参加AI版《演员的诞生》！）

再看下面这位老哥，短短9秒时间里，惊恐、紧张、愤怒几种情绪接连切换，整个过程还挺有压迫感？？

此外不知道大家发没发现，当人物在说到重音位置时，嘴部开合幅度、面部发力方式也会跟着增强。

台词重心和表演重心是对得上的，融合度可以说是非常不错，be like：

自动播放

除了对着镜头完成这类单人表演，LPM 1.0还有个更有意思的能力——

那就是角色在「倾听别人说话」时，会同步给出与当下情境相符的的表情和状态反馈。

让你觉得，眼前这个AI…好像真的在赛博世界和另一个人真实互动。

比如下面这个女人接孩子电话的片段。

当她听到电话那头的声音时，第一时间先是眼神变化，随后眼睛微微睁大，带出一点意外和牵挂，紧接着眉头收紧，像是在迅速判断电脑那头孩子是不是遇到了什么事。

emm…整段反应很像真人接电话时那种「边听边消化信息」的状态：

自动播放

再看下面这个神情已经有点略微烦躁的男子。

对方一开口，他的脸上就同步出现了扶头、疲惫、轻微不耐烦这些反应，整个人的状态像是在强撑着把这段话听完。

（像极了我们上班开会听老板讲话时候的表情…狠狠共鸣住了。）

自动播放

除了上面我们展示的这些单向视频生成能力外，LPM 1.0还有一个非常值得一提的能力——

那就是我们能与AI角色「实时互动」。

例如你说话时，角色会实时做出正在听的表情和动作，让整个互动看起来会更像真人视频通话。

比如下面这个demo，在视频对话器中，女子只张口说了句「let’s sing a song」，屏幕里的AI女孩就能做到立刻开始大展歌喉～

自动播放

再比如，只说一句「请你做个自我介绍」，屏幕里的AI女孩也能快速做出相关反应，更接近真实交流该有的节奏：

最后我们来说说LPM 1.0长时间视频生成中能力。

具体来说，LPM 1.0能够让AI角色在长时间互动里依旧保持稳定输出，既能持续对话，也能长时间讲故事，人物形象还不容易崩。

比如像下面官方案例中22分钟、48分钟的视频也能轻松生成，而且角色形象一致性依旧保持不错～

LPM 1.0为啥这么会「演」？

能让赛博世界里的人物角色表情神态和交互能力如此到位，LPM 1.0背后的技术架构自然也不简单。

我先给大家小小科普一下，其实目前行业内的视频模型，一直很难同时兼顾三件事儿——

那就是表现力、实时性、长视频的角色一致性。

这三项能力可以说是彼此牵制，水火不相容，这也构成了当下AI视频最核心难题之一…

而为了解决这个大难点，LPM 1.0团队先是构建了一套以人为中心的多模态数据集——

在这个过程中加入了表演理解，身份感知等多种参考信息内容，目的是让AI角色更像真人交流时的状态。

在此基础上，团队又给底层架构直接上了一套有着170亿参数的扩散Transformer。

这套架构更擅长处理视频里空间与时间之间的复杂关联，能借助强大的自注意力机制，把人物表情、口型、动作，以及前后帧之间的连续关系一起建模。

这样一来模型就能知道到底怎么演才能更自然更像人类～

而至于我们在刚才看到的能实时交互的模拟器，则是一个因果式流生成器，专门用于实现低延迟、可持续、无限长度的实时交互。

这样一来我们就和AI角人物进行实时交流了！（暗笑.jpg）

除了模型本身的能力外，LPM 1.0团队成员同样值得关注。

此次在X上披露LPM 1.0模型的@Ailing Zeng，身份为Anuttacon的技术团队成员，主要负责互动多模态视频生成模型的相关研究。

她博士毕业于香港中文大学，在加入Anuttacon之前，曾在腾讯混元团队和IDEA从事大模型相关研究。

此外，该模型的技术论文由20+位研究人员共同参与完成，感兴趣的uu可通过下方论文链接了解模型的详细技术内容～

Ps:目前，模型还没有正式对外上线，感兴趣的朋友可以蹲蹲。

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

米哈游蔡浩宇AI公司首个视频模型曝光了

亲爱的凤凰网用户:

第三方浏览器推荐: