米哈游蔡浩宇AI公司首个视频模型曝光了
科技
科技 > 人工智能 > 正文

米哈游蔡浩宇AI公司首个视频模型曝光了

梦瑶 发自 凹非寺

量子位 | 公众号 QbitAI

米哈游蔡浩宇的AI公司Anuttacon,首个视频模型正式曝光!

Anuttacon技术团队成员@Ailing Zeng,在X上展示了全新视频角色表演生成模型——LPM 1.0

主打一个让AI角色人物表现得更《出神入化》~

大家先看下面这位AI小哥,生动演绎了一场16秒变换N种情绪的超绝大戏,你就说这情绪拿捏到不到位吧:

自动播放

不仅如此,在LPM 1.0模型中,连让AI人物「听别人说话」这事儿也同步进化了。(天呐.jpg)

哪怕不张口、只是安静坐着当一个认真聆听的人,角色的表情、眼神和情绪反馈也都在线,这情绪价值给的:

自动播放

此外,我们还可以和AI进行「实时互动」。

只要对着电脑屏幕说一句自己的甲方需求,屏幕里的AI角色就能够根据指令当下做出反应。

哪怕是在长时间交互下,依旧能保证人物形象稳定一致,be like:

自动播放

表情如此之自然、情绪如此之到位、交互如此之实时,网友直接就是一个《坐不住》,直言:

实时、支持无限长度的AI角色终于来了!!!(大声.jpg)

(说真的,我大早上在官网看了这几个demo效果后,属实快分不出来AI不AI了…)

LPM 1.0:主打一个让AI角色变「戏精」

其实对今天的AI视频产品来说,能把人物角色的表情生动演绎出来,早就不算什么新鲜事了。

但是LPM 1.0模型特殊就特殊在吧——

我们能通过文本、音频和图像三种多模态形式,轻松生成一个能实时对话、会听会说、还能持续保持人物一致性的动态角色。

让AI角色在视频里,更会演、更会听、更会说,还能一直像同一个人~

我也帮友友们浅浅总结了一下LPM 1.0模型最核心的几大「能力亮点」:

超绝情绪演绎能力:能同步生成说话、倾听、微表情和自然动作,情绪表演更到位。

实时视频生成能力:通过在线生成器,用户能实现和AI角色实现实时交互,适合做对话型角色。

根据对方说话做出反应的能力:角色可以一边听用户说话一边做出表情反应,等轮到角色回答时,它再根据合成语音生成说话视频。

长时间人物一致性:哪怕和AI的互动时间延长之后,AI角色依旧尽量维持同一个人的外观和身份特征。

emm…这些能力是不是听上去有点乏味?没关系,我们直接让AI演员们上才艺!

先来说说大家很感兴趣也很有意思的——「超绝情绪演绎能力」。

具体来说,模型在口型同步、呼吸节奏、情绪表达维度上的表现更贴近人类的表现方式,呈现效果也就更有层次。

比如在下面这个堪比好莱坞大片的视频,两位男子仅仅在几秒钟的时间,就生动演绎出了多个神态——

自动播放

前一秒还是犹豫和迟疑,下一秒就出现抿嘴、咬牙、叹气这类更细小的动作,能让人明显感受到心理状态在变化。

(老戏骨啊老戏骨,建议送去参加AI版《演员的诞生》!)

再看下面这位老哥,短短9秒时间里,惊恐、紧张、愤怒几种情绪接连切换,整个过程还挺有压迫感??

此外不知道大家发没发现,当人物在说到重音位置时,嘴部开合幅度、面部发力方式也会跟着增强。

台词重心和表演重心是对得上的,融合度可以说是非常不错,be like:

自动播放

除了对着镜头完成这类单人表演,LPM 1.0还有个更有意思的能力——

那就是角色在「倾听别人说话」时,会同步给出与当下情境相符的的表情和状态反馈。

让你觉得,眼前这个AI…好像真的在赛博世界和另一个人真实互动。

比如下面这个女人接孩子电话的片段。

当她听到电话那头的声音时,第一时间先是眼神变化,随后眼睛微微睁大,带出一点意外和牵挂,紧接着眉头收紧,像是在迅速判断电脑那头孩子是不是遇到了什么事。

emm…整段反应很像真人接电话时那种「边听边消化信息」的状态:

自动播放

再看下面这个神情已经有点略微烦躁的男子。

对方一开口,他的脸上就同步出现了扶头、疲惫、轻微不耐烦这些反应,整个人的状态像是在强撑着把这段话听完。

(像极了我们上班开会听老板讲话时候的表情…狠狠共鸣住了。)

自动播放

除了上面我们展示的这些单向视频生成能力外,LPM 1.0还有一个非常值得一提的能力——

那就是我们能与AI角色「实时互动」。

例如你说话时,角色会实时做出正在听的表情和动作,让整个互动看起来会更像真人视频通话。

比如下面这个demo,在视频对话器中,女子只张口说了句「let’s sing a song」,屏幕里的AI女孩就能做到立刻开始大展歌喉~

自动播放

再比如,只说一句「请你做个自我介绍」,屏幕里的AI女孩也能快速做出相关反应,更接近真实交流该有的节奏:

最后我们来说说LPM 1.0长时间视频生成中能力。

具体来说,LPM 1.0能够让AI角色在长时间互动里依旧保持稳定输出,既能持续对话,也能长时间讲故事,人物形象还不容易崩。

比如像下面官方案例中22分钟、48分钟的视频也能轻松生成,而且角色形象一致性依旧保持不错~

LPM 1.0为啥这么会「演」?

能让赛博世界里的人物角色表情神态和交互能力如此到位,LPM 1.0背后的技术架构自然也不简单。

我先给大家小小科普一下,其实目前行业内的视频模型,一直很难同时兼顾三件事儿——

那就是表现力、实时性、长视频的角色一致性

这三项能力可以说是彼此牵制,水火不相容,这也构成了当下AI视频最核心难题之一…

而为了解决这个大难点,LPM 1.0团队先是构建了一套以人为中心的多模态数据集——

在这个过程中加入了表演理解,身份感知等多种参考信息内容,目的是让AI角色更像真人交流时的状态。

在此基础上,团队又给底层架构直接上了一套有着170亿参数的扩散Transformer。

这套架构更擅长处理视频里空间与时间之间的复杂关联,能借助强大的自注意力机制,把人物表情、口型、动作,以及前后帧之间的连续关系一起建模。

这样一来模型就能知道到底怎么演才能更自然更像人类~

而至于我们在刚才看到的能实时交互的模拟器,则是一个因果式流生成器,专门用于实现低延迟、可持续、无限长度的实时交互。

这样一来我们就和AI角人物进行实时交流了!(暗笑.jpg)

除了模型本身的能力外,LPM 1.0团队成员同样值得关注。

此次在X上披露LPM 1.0模型的@Ailing Zeng,身份为Anuttacon的技术团队成员,主要负责互动多模态视频生成模型的相关研究。

她博士毕业于香港中文大学,在加入Anuttacon之前,曾在腾讯混元团队和IDEA从事大模型相关研究。

此外,该模型的技术论文由20+位研究人员共同参与完成,感兴趣的uu可通过下方论文链接了解模型的详细技术内容~

Ps:目前,模型还没有正式对外上线,感兴趣的朋友可以蹲蹲。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载