首发根据音频生成4K分辨率1小时长视频，复旦、百度联手打造AI开源模型Hallo2

科技 > 人工智能 > 正文

首发根据音频生成4K分辨率1小时长视频，复旦、百度联手打造AI开源模型Hallo2

IT之家

下载客户端
独家抢先看

2024年10月21日 11:57:47 来自山东

IT之家 10 月 21 日消息，复旦大学和百度联合开发了一款名为 Hallo2 的全新 AI 模型，该模型可以生成长达数小时的 4K 分辨率人物动画，现已在 GitHub 发布开源。

Hallo2 模型建立在 latent diffusion models 的基础上，相比上一代 Hallo 模型的效果更好，支持了长视频生成，通过引入数据增强方法如 patch-drop 和高斯噪声，有效提高了长时间视频的视觉一致性和时间连贯性。

Hallo2 还结合了向量量化生成对抗网络和时间对齐技术，保证了高分辨率视频的质量和流畅性。

此外，Hallo2 将可调整的语义文本标签的肖像表情作为条件输入。这超出了传统的音频提示，可以提高可控性并增加所生成内容的多样性。项目页面介绍称，Hallo2 是第一种实现 4K 分辨率并生成长达 1 小时的音频驱动的人像图像动画的方法，并通过文本提示进行增强。

IT之家附 Hallo2 项目地址如下：

https://fudan-generative-vision.github.io/hallo2/#/

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

首发根据音频生成4K分辨率1小时长视频，复旦、百度联手打造AI开源模型Hallo2

亲爱的凤凰网用户:

第三方浏览器推荐: