撰文|翟文婷
2024年最后一个月,国产大模型落地应用突然加速。尤其视频生成模型,就像密集射出子弹后的枪管,热得发烫。
12月19日,快手可灵更新了1.6模型,相比两周前高调扩散AI导演共创计划,这个动作显得安静很多。但是快手选择升级模型的这个时间点,似乎有些深意。
因为一天前的12月18日,字节火山原动力大会,第一次对外发布豆包视频生成大模型。同时张楠从抖音来到剪映成为掌门人之后,首次对外亮相。她简短介绍了今年5月份就推出的即梦,一款跟可灵类似的视频生成工具。
会上,张楠给出即梦的明确含义:想象力相机,以此对应抖音的现实相机。但是她没有讲太多产品细节,只是播放了两个样片。她说产品和技术都还在早期阶段。
这可能是避免外界将即梦和一周前公布的Sora Turbo做直接对比。
OpenAI年底为期12天的直播,重头戏是在12月10日,长达10个月的铺垫之后,Sora终于揭开面纱。
其中最大亮点是「故事板」(view story)功能,提示词可以直接转化剧本。此外新版Sora视频生成速度更快,编辑功能更实用。为此,用户每月要付出200美元的成本。所以虽然产品发布当天,服务器被海量流量冲击崩溃,但吐槽声音不断。
不管怎样,在大模型先锋OpenAI之后发布产品总是压力不小,除非有更惊喜强大的产品亮点,否则容易黯然失色。
因此,腾讯混元在12月初就抢先一步推出视频生成大模型,且将应用名字称作「元宝」。不过,相比Sora、可灵、即梦等既能文生视频也能图生视频的工具,腾讯混元目前只能文生视频。
问题在于,目前大模型对语义理解水平能力有限,所有文生视频的应用效果远远达不到令人满意的地步,也很难吸引AGIC创作者积极使用。
腾讯自然是明白的。所以产品发布当天,开源是腾讯积极释放的信号。
虽然国产视频生成应用也近10多款,从过去20天的情况来看,国产视频生成模型还是掌握在大公司手里,这不仅跟大模型水平、算力有关,视频数据积累更是决定性因素。而且大模型早期弥漫的一种FOMO情绪(Fear of Missing Out),此刻依然有迹可循。
只是正如张楠所说,产品和技术还处在早期。如果你了解到现在的AI视频是怎么做出来的,就不会被渲染的画面迷惑,只是发出一声惊叹。
此刻仅仅是发令枪响起,不要太早下结论。
图生视频是主流?
在我们接收到的信息中,大模型生成视频似乎易如反掌,一段文字还你一段视频,且效果比肩影视大片。人人都是大导演,近在迟尺。
事实是,AI视频的确降低了生产门槛,只是那些制作精良的广告宣传片、短剧类AI视频,还是少数人掌握的技能。
有必要先讲下一个2分钟的AI短片是怎么做出来的。
首先,跟传统创作类似,创作者要先拿出脚本,只不过是基于AI能力可以实现的内容。这个步骤是可以借助AI工具,ChatGPT、Kimi和智谱清言是被提及最多的。
其次,根据视频脚本拆解细化的分镜内容,创作者用AI文生图工具将分镜先以静态图的方式展现。
如果是有专业或者商业要求,比如广告,宣传片,短剧等,希望达到传统拍摄的专业与合理性,在将静态分镜图转成视频之前,需要创作者将生成的静态图进行PS后期及图片超分辨率处理来提高图片的原始质量,以次保证图生视频的质量基础。
之后,将这些图片给到AI视频工具进行动态分镜生成。Sora的720p单次可以生成最长20秒的视频,国产大模型一次都只能生成5-10秒的视频。
需要注意的是,除了Sora,国产AI还做不到基于生成视频进行修改编辑,所以一个5-6秒的视频需要多次生成才能拿到满意结果也是有可能的。
现在我们看到的2-3分钟AI视频,绝大部分都是图生视频,而且原料是经过专业处理的图片,需要多次续写并配合后期剪辑而成。
虽然目前国产视频生成模型中,只有腾讯混元是免费的,没有收费项目,但文生视频依然面临激励创作者使用的障碍(今年5月份腾讯生成式AI产业峰会上,腾讯公布的多模态能力中,其中提到混元支持图文等形态生成视频能力,只是还没有图生视频的落地应用):
首先是大模型语义理解能力局限,视频最终呈现的是不是文字描述的东西,以及是不是符合创作者脑海设想的画面?
其次在于一致性。比如,你希望以「一个穿着淡黄色长裙的女生」为主角,生成一个长1-2分钟的连续视频。
按照现在大模型能力,你可能要不断续写几十次甚至上百次才有可能最终实现。但是可能你每次文字输入生成的视频中,这个女生的五官和穿的长裙款式都不一样,五官可能存在年龄与样貌偏差,服装颜色可能是浅黄、深黄或是橙黄,这就是一致性问题。
但是图生视频可以提前确定统一色调,在图片处理方面配合Comfy UI(一款基于节点工作流稳定扩散算法的图形界面)的换脸、换服装等功能做到人物一致性。
文生视频也不是被束之高阁,如果你要的就是短短五六秒的东西,或者一键让静图活动起来,使用门槛要更低一些。在文生视频领域,尚在内测阶段的腾讯混元(一天只能测试6次)的确是超出现在行业平均水平的。
腾讯混元文生视频,提示词为:烟花绽放/开篇:夜空中一道火光划破黑暗,烟花升空。高潮:烟花在空中瞬间绽放,色彩斑斓,画面以慢动作和高速摄影交替展现。结尾:烟花逐渐消散,夜空恢复平静,留下点点星光,寓意瞬间的美好。
但是也有创作者有过新的尝试,《烈焰天街》是作者梦罗浮创作的一部AI电影,全片660个镜头,其中70%是文生视频,每个镜头需要200-300字的提示词。他在分享创作心得时解释,「之所以用文生视频做主体创作,因为它表情和肢体动作比图生视频真实。」
他提到,即梦文生视频效果很像图生视频,「放眼望去,人人都是主演,多人内容场景模型不崩坏」。
即梦文生视频,提示词同样为:烟花绽放/开篇:夜空中一道火光划破黑暗,烟花升空。高潮:烟花在空中瞬间绽放,色彩斑斓,画面以慢动作和高速摄影交替展现。结尾:烟花逐渐消散,夜空恢复平静,留下点点星光,寓意瞬间的美好。
不管怎样,现在看到绝美或是接近物理现实的AI视频,是少数懂得设计、审美,熟练操作各种工具的专业人士做出来的。你也可以理解为,这些人是AI视频的种子用户。一年前,他们中大部分是AI绘画工具的熟练掌握者,活跃在小红书平台。
因此,相比豆包、Kimi等AI对话类产品上来就海量投放转化的动作,可灵、即梦前期更多是在尽可能网罗种子用户的参与,激励他们创作更多作品,各个社群这些创作者都是被争取的对象。其中一些敏锐的创作者,靠售卖AIGC培训教程,抓住了一波变现红利。
成为各个应用的超创,创作者可以有机会获得平台推送的商单,免费积分,包括于电视台合作的支持。但可能平台也会要求超创每月输出一定的视频创作,甚至免费配合产品宣讲教程。
从大厂的一些动作也透露出应用在引导的用户群体和使用场景。
可灵从影视专业人员群体攻入,之前他们也提出AI+短剧的计划,意图就是在影视、广告、游戏等领域嫁接AI。自上而下渗透的意图显而易见。
腾讯混元在介绍中就明确提出,可在工业级商业场景例如广告宣传、动画制作等场景。腾讯广告妙思平台就已经接入文生图模式,降低广告主的创作门槛。
看不见的决定因素
尽管即梦和可灵具备图生视频的能力,已经占据一定的用户心智,但对于他们而言,依然前路漫漫。
除了我们所能感知到的产品特征和差异,国产AI视频应用的底层模型架构,有很大的相似性。
腾讯混元和快手可灵都是采用了跟Sora类似的DiT(Diffusion Transformer)模型架构。包括MiniMax的海螺AI也是如此选择。
一种观点认为,与OpenAI其他产品不同,在算力充足的前提下,DiT架构路径复刻难度相对较低。这也是国产视频生成大模型在短短几个月,布局速度和落地结果超出预期的原因。
但是接下来在一些关键性问题解决上,就看各家公司的底层优化能力和数据训练结果。
AGIC创作者温维斯Wenvis告诉新莓daybreak,他对AI视频应用实现的结果有两个期望:一是快速展现出自己脑海的想法,且跟预期是比较相符的;二是成为自己的灵感激发器,不一定是成品,但想法会被启发或提升。
在可灵发起的AI导演共创计划中,温维斯是导演王子川的AI合作者,他们共同创作了《雏菊》,前期一个基本想法就是,尽量避开AI不擅长的地方。
就目前而言,视频生成模型共同努力方向有几个:一致性,视觉真实度,动态幅度,提示词的语义理解能力等。
比如尽管很多产品宣称一致性表现不错,但几乎所有公司都还在默默努力。只有创业公司生数科技曾在今年9月高调发布所谓「全球首个支持多主体一致性的多模态大模型」,公司旗下产品Vidu现在已经开放使用,测评反馈在2D及多主体一致上表现不错,缺点是画面太糊,即使是会员可以享受高分辨率的用户也依然存在这个问题。
再比如,不论国内国外,AI视频软件的动态幅度都有待提升。最基本的人物开口说话,做一些特定的肢体动作,比如武术,运动体操这类大幅动作,目前所有工具表现都不尽如人意。
导演俞白眉接触AI最想探索的就是与动作连接的部分,他知道AI在规定镜头的运动方面,不是强项,也不擅长真人动作。但他还是积极参与了可灵的导演计划,希望尝试创作出一些之前没有见过的动作片段。
谈及整个创作过程,他说一言难尽,结果也差强人意,「这些作品都是涂鸦」。但他也提到,中间有趣味存在,学到了很多东西。
俞白眉的体感可能会得到不少共鸣。所以,创作者会根据不同题材,不同需求,使用不同的AI视频工具。也许个人创作偏好会导致他使用某个工具多一些,但现在远不到哪款产品形成绝对优势的地步。
国产AI生成视频应用,快手旗下的可灵是唯一公布过数据的。
快手第三季度财报发布时,可灵9月份月活超150万。到了12月10日,累计用户数达到600万,生成视频数量为6500万,图片超1.75亿张。快手还公布过商业化成绩,单月流水超过千万元,据说为此内部还切蛋糕,小小庆祝了一下。
可灵是国产大模型生成视频动作相对较快的一个,有种抢跑加速的焦虑感。
今年6月产品上线,当月就推出图生视频,以及续写视频,从一开始的最长2分钟延伸至3分钟。而且很早就明确跟短剧、影视相结合,可灵生成最早流传到海外的视频还被马斯克看到并点评。
即梦推出时间比可灵要更早,对外释放的信息和动作没有可灵频繁。但是因为字节AI部署能力和广泛用户基础,即梦在创作者群体的呼声也很高。
叶锦添有两句话说得非常好:如果用3D传统的方式,每次想试一样东西都要花同样的时间,但AI是不用的。这给了我不同的速度感,我就开始去领会,AI会影响我怎么看这个世界。他还说,AI有时候走得比我们快,所以有可能带来另外一种经验。
AI一天,人间一年。
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”