科技 > 数码 > 正文

字节视频大模型杀死比赛！无缝镜头切换，运镜技巧拉满，音乐创作和翻译自由也实现了

智东西

下载客户端
独家抢先看

2024年09月24日 18:30:21 来自北京

作者 | 程茜

编辑 | 云鹏

智东西9月24日报道，今天，字节的视频生成大模型首次亮相，分分钟化身超级导演，镜头切换、电影质感、多主体交互都能轻松拿捏；其通用模型Pro综合能力提升25%，初始TPM（每分钟处理Tokens数量）支持800k，高于业界其他模型。

这些都是今天字节跳动豆包大模型家族的重磅更新，连添了视频、音乐、同声传译三大新成员；还有文生图模型优化了六类复杂生成，语音合成模型可混合数百种音色……

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

其中的重磅发布莫过于视频生成模型，这意味着继快手后，另一大短视频巨头字节（抖音集团）也正式进军AI视频生成赛道。

豆包的视频生成模型可以实现对复杂指令的理解和遵循，平滑实现镜头的变焦、环绕、缩放，保持多镜头切换的一致性以及多尺寸、多风格生成。据火山引擎总裁谭待透露，该模型会在国庆节之后上线到火山方舟平台。

它可以根据提示词生成电影质感的画面：

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

超现实的提示词也能轻松应对，如有翅膀的青蛙、浮空小岛中生长的树等：

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

在真实使用场景中，人们往往需要不同比例或者尺寸大小的视频，该模型可以满足多比例、多尺寸的视频生成：

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

即使视频画面切换，豆包生成的视频镜头仍能保持一致性：

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

还有各种或逼真、或科幻的视觉效果：

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

今年5月，豆包大模型产品家族首次亮相，目前已经涵盖大语言模型、视觉大模型、语音大模型三大品类发布了13个大模型。此外，豆包通用模型Pro的升级还包括上下文窗口达到256k。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

同时，豆包模型技术已经应用到了剪映、即梦AI和醒图工具中，打造了数字分身生成、内容营销工具等。

一、豆包Pro综合能力提升25%，视频、音乐、同声传译模型亮相

今年5月，豆包大模型产品家族正式发布，火山引擎总裁谭待透露道，截至今年9月，豆包大模型Tokens调用量提升超过10倍，其日均Tokens使用量超过1.3万亿。多模态方面，日均生成图片5000万张，日均处理语音85万小时，这相当于7万天广播节目的总时长。

除此以外，豆包大模型产品家族还迎来三个新成员：视频生成模型、音乐生成模型、同声传译模型。

1、豆包通用模型Pro：初始TPM业界最高，上下文窗口达256k

截至8月底，豆包通用模型Pro综合能力累计提升25%，其中数学能力、专业知识实现超过35%的提升。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

在企业应用场景中，不仅要考虑模型能力，还要考虑成本。谭待谈道，今年5月，火山引擎成为国内第一个将大模型成本降到每1000 token低于一厘钱（0.001元）的公司。这样的大幅降价背后大量创新应用涌现，过去几个月内模型调用量增长突飞猛进。

他补充说，当Tokens的价格不再是阻碍应用创新的阻力，模型的性能又成为应用上量的关键。

豆包Pro模型再次升级。豆包Pro默认的初始TPM支持800k，高于业界其他模型，还可以根据企业具体需求进一步扩容。豆包Pro上下文窗口达到256k，可一次性处理约40万汉字，这相当于一口气读完《三体》的第一部和第二部，同时，谭待还宣布，豆包Pro加量不加价。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

2、视频生成模型：多主体、动作可丝滑交互，镜头平滑切换

豆包大模型家族的第一位重磅新成员就是视频生成模型。

豆包视频生成模型有PixelDance和Seaweed两个版本，PixelDance V1.4是ByteDance Research团队开发的 DiT 结构的视频生成大模型，同时支持文生视频和图生视频，能够一次性生成长达10秒的视频片段。

Seaweed版本支持两种文生视频和图生视频两种方式。该技术基于Transformer结构，利用时空压缩的潜空间进行训练，模型原生支持多分辨率生成，适配横屏、竖屏，并能够根据用户输入的高清图像分辨率进行适配和保真。

基于豆包视频生成模型，用户可以通过输入文字和图片获得一段视频。这一模型采用了高效的DiT融合计算单元、全新设计的扩散模型训练方法、深度优化的Transformer结构。

其优势在于首先能实现对复杂指令的理解和遵循，解锁时序性多拍动作指令与多个主体间的交互能力。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

其次是镜头语言，根据Prompt豆包视频生成模型可以让视频在主体的大动态和镜头中进行平滑切换，实现镜头的变焦、环绕、缩放等。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

第三是一致性多镜头生成，该模型能实现多镜头切换的一致性，通过一个Prompt实现多个镜头切换，同时保持主体、风格、氛围的一致性。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

最后是支持丰富题材，豆包视频生成模型的风格不限于黑白、3D 动画、2D 动画、国画等，同时还能根据企业的发布平台生成1:1、3:4、4:3、16:9、9:16、21:9六种比例的视频，适配于不同终端，以及电影、手机竖屏等不同画幅。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

具体到电商营销、动画教育、城市文旅、微剧本等商业场景应用中，如电商营销场景需要根据商品生成大量配合营销节点的视频素材，以及不同尺寸，豆包视频模型可以做到快速把商品3D化，并配合不同节日替换风格和背景，生成不同尺寸的内容进行发布。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

3、音乐生成模型：词曲唱全流程覆盖，还能模拟真假音转换技巧

豆包音乐模型实现了音乐生成通用框架，从词曲唱三个方面生成高质量音乐。

用户首先输入Prompt就可以得到一段歌词，然后在10余种不同风格的音乐和情绪表达中选择进一步创作出歌曲，再基于豆包语音能力，生成可以媲美真人演唱效果的声音，可以实现气口、真假音转换技巧的模拟。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

目前，开发者可以通过火山方舟使用豆包音乐模型API，用户也可以直接通过豆包App和海绵音乐App创作音乐。

4、同声传译模型：端到端模型架构，模拟真人发音

豆包同声传译模型采用端到端模型架构，再叠加豆包的语音克隆能力，去模拟真人发音。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

在实时翻译方面，豆包同声传译模型可以做到边说边译，且在办公、法律、教育等场景接近甚至超越人类同传水平，还能支持跨语言同音色翻译。

二、豆包模型技术接入剪映、即梦AI和醒图，分分钟定制数字分身

即梦AI和剪映市场负责人陈欣然谈道，不同于传统的画笔工具，用AI进行创作是动态的过程，可以和创作者深度互动，共同创作，生成式AI带来的一些不可控性，反而能激发创作者的灵感。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

她举了两个例子，在输入虚拟人实现360度旋转的提示词后，AI生成了头部不动，身子旋转的视频，这更符合她需要的赛博朋克风格效果。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

第二个例子是高适唱歌，她只输入了音乐和歌词，就得到了表现力很强的视频生成效果。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

剪映和CapCut上线了定制数字人、音色克隆、视频翻译的功能。

这一数字人的形象是基于Transformer音频驱动和全脸生成模型的技术，声音基于音色克隆大模型技术，可以帮助用户不需要本人出镜和录音，在自媒体口播、营销带货、企业培训等场景通过数字人切换不同语言完成表达。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

数字人的制作需要用户录制或者上传一段高清3分钟正面视频，就可以创建数字分身，如果只需要音色克隆只需要大概5秒钟的声音输入。

还有一大工具是剪映上线的内容营销创作工具，用户直接填写商品名、上传素材，或者直接上传商品页链接，就能一键生成不同风格的带货视频。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

陈欣然透露说，即梦AI已经接入豆包两款视频生成模型，正在进行内测的场景和效果打磨。

三、火山方舟2.0，破解大模型效果不好、成本太贵、落地太难关键挑战

火山引擎智能算法负责人、火山方舟负责人吴迪重点提及了大模型在业务场景落地的关键挑战，是效果不好、成本太贵、落地太难。豆包大模型在做的就是基于更强模型、更低价格、更易落地的宗旨，助力企业AI落地。

吴迪谈道，更强模型需要具备两个必要条件，就是用量非常大、基座模型处理的场景足够丰富和广泛。

目前，豆包大模型已经在公司内部50多条业务线和外部30多个行业实现非常大的用量，日均Tokens使用量超过1.3万亿。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

AI角色内容社区和AI创作平台想法流基于豆包大模型能力，实现了人均对话轮次提升达到150%~350%之间，综合线上成功请求率达到99.95%。

还有一家AI客服训练平台的全渠道智能知识库晓多科技，实现初始支持RPM提升了2000多倍，支持高并发任务。

字节跳动的自有业务豆包爱学，基于豆包新版大模型核心指标显著提升10%，题目解析可用率提升。

豆包文生图模型2.0采用了更高效的DiT架构，优化了物理世界关于多主体、多数量、大小、高矮胖瘦等六类复杂的生成，能更好呈现小说、超现实设计等画面。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

语音合成模型打破了音色数量限制，可以混合数百种音色，供企业DIY不同情绪、性别、年龄、风格的声音效果。

在解决大模型落地困难方面，火山方舟2.0的基本理念是模型效果好、性价比高、流量大，围绕这一核心，算法工程师、信息安全、更强性能、安全可信是其四大支撑。

在更强的系统性能方面，豆包模型支持最大的初始并发，这得益于其有充沛的算力、推理层优化、系统调度能力的乘积，可以在50-120秒内完成数千卡GPU部署。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

上下文缓存方面，据吴迪透露，今年10月，他们将开放Context上下文缓存，企业可以减少多轮对话延迟，改善用户体验。同时，其会进一步降低企业使用成本。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

火山方舟还打造了全周期安全可信方案，通过身份认证、环境隔离、数据保密、信息无痕、操作可审计构建大模型安全“堡垒”。

HTC VIVE XR头显新品首发体验，“Vision”命名火药味十足，DP直连无损画质效果惊艳

为了扩展大模型应用的能力边界，火山引擎3+X插件升级，其中知识库插件可支持更大规模、更低延迟、更高召回率和准确率等。

结语：视频生成模型爆发机遇已来

近一年来，AI视频生成领域的热度持续攀升，多家AI公司推出了新的视频生成模型，引发了行业内的激烈竞争，从图像生成、图像编辑到更为复杂的长视频、三维信息生成等模型问世，彻底引爆了这条赛道。

坐拥抖音短视频丰富视频素材的字节跳动，此次重磅发布了视频生成模型，为视频生成赛道注入新的动力。从其已经发布的诸多Demo来看，在语义理解、视频生成的顺滑度方面可用性更强，并且字节跳动还将豆包模型技术应用到了已有的剪映、即梦AI等工具中，进一步加速视频生成的落地与规模化应用。

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

字节视频大模型杀死比赛！无缝镜头切换，运镜技巧拉满，音乐创作和翻译自由也实现了

亲爱的凤凰网用户:

第三方浏览器推荐: