11月13日早上,一则关于阿里巴巴决定申请仲裁“通义大模型前员工周畅违反竞业协议”的消息迅速在AI圈传播开来,而当天中午就有媒体得到阿里内部人士的确认:情况属实。
早在2020年,周畅就开始在阿里达摩院带领团队训练名为M6的多模态模型,2023年ChatGPT爆火后,他所在的团队在M6基础上研发了“通义千问”大模型,该模型如今已成为众多通义系列AI产品的技术底座。可以说他就是当今世界上最懂阿里大模型的人,但这个人现在跳槽到了字节跳动,对于阿里来说这无异于釜底抽薪。
7月中旬,最先曝出来的消息是周畅即将辞职创业,然而10月底,他就已经加入了字节跳动。“辞职创业就是个幌子,就是怕被竞业,”在一家服务字节的猎头公司工作的沈曼告诉《第一财经》杂志,“但这次瞒不住了,来字节的不止周畅一个人,他手底下的团队还有十多个人也跟着跳槽了。”
此外,最近几个月加入字节大模型团队的关键人才还包括零一万物前算法副总裁黄文灏,面壁智能原核心成员、序智科技创始人秦禹嘉。
这家中国最年轻也最激进的技术公司一直以拥有庞大的招聘团队著称,HR部门巅峰时有5000多名员工,其中绝大部分人唯一的工作就是招聘,再辅以同等规模的外包猎头体系,共同构成了一座史无前例的抢人工厂。其他体量相近的技术公司在招聘团队规模上与它有着约一个数量级的差距,这意味着只要字节决定入场,每家竞对公司都将面临人才流失的风险。
但字节曾是“迟钝”的。CEO梁汝波在2024年年初的全员会上反思道,公司“直到2023年才开始讨论GPT,而业内做得比较好的大模型创业公司都是在2018年至2021年创立的”。百度2023年10月宣布已在百度搜索、文库、地图等各种应用中全部植入了AI能力时,豆包App刚上线不久,这也是当时字节唯一一款AI原生应用。
字节提速,从抢人开始
从2023年年中开始,这座工厂AI方向的抢人需求就没有断过。“目标主要是阿里通义团队、百度文心和飞桨团队,以及包括月之暗面、智谱在内的‘AI六小龙’,等等,”沈曼说,“国内有模型研发经验的人才基数较少,所以工作时往往可以直接定位到团队甚至个人。”字节对于基础模型研发相关人才的招聘是没有名额上限的,对于目标团队的候选人在薪资上开出的数字非常可观,经常可以看到基于原薪资双倍的涨薪幅度。
根据沈曼的经验,字节各个部门首先要向招聘团队提出招人需求,但公司开放给各部门招聘人才级别的权限并不相同。字节职级一共分10级,从最低的1-1到最高的5-2,数字越大,职级越高。其中2-1(工程师)到3-1(高级技术专家)是内部占比最大的。在业务维稳期,会有大量2-1和2-2的招聘需求。在业务需要“开疆拓土的阶段”会放出3-2、4-1以及更高的需求。一般来说,只有盈利部门3-1以上的需求会更多,但是在大模型研发人才的招聘上,字节格外大方。《第一财经》杂志通过多方信源了解到,字节给周畅提供了一份几乎无法拒绝的合同:4-2的职级和8位数的年包工资,按阿里的职级体系换算大约是连跳两级且薪资翻好几倍。与他一起来的原团队成员,字节也都给了4-1、3-2(对标阿里级别P10、P9)的职级。“你也可以把周畅这单合同看作一份英雄帖,字节是在告诉所有人,它愿意给,而且给得起。”沈曼说。
对于字节来说,抢人早已是公司开辟新业务时惯用的手段。字节创始人张一鸣曾多次在公开场合提到“人才密度”的概念,在他看来,只要保证人才密度超过业务复杂度,那么在有效的激励措施下业务的成功是水到渠成的。
张一鸣本人就是这套理论最忠实的践行者,字节旗下今日头条、抖音等信息流产品所倚仗的核心技术,即推荐、广告、搜索算法(简称“推广搜”)的研发班底其实就来自于百度。2014年至2015年,张一鸣以高薪从百度网页搜索部相继挖来了当时的副总监杨震原、主任架构师朱文佳,以及一批机器学习算法工程师。现如今,杨震原已是字节跳动副总裁兼火山引擎业务负责人,朱文佳则担任过今日头条CEO及TikTok产品技术负责,2023年年初更是成立了代号为“Seed”的神秘团队,专注于大模型底层技术的研发。
其实比从外面抢人更早一点发生的,是字节内部的“抢人”,或者按官方的说法:团队重组。
神秘和特殊是乐雁对Seed团队的最早印象。2023年年初,他发现在字节机器学习平台的算力使用榜前排出现了一些新名字。依照过往经验来看,排名靠前的都是当前字节内部最受重视、得到最多资源倾斜的团队,而前几名的算力使用量往往能占当时总算力的一半。一些消息灵通的同事称这个新成立的团队很可能在做基础模型的研发,他们的工作区还有第二道门禁。
乐雁2020年才作为算法工程师加入字节,但他对这家公司灵活多变的管理风格并不陌生,从每个人到每个部门,一切都在名为效率的指挥棒下快速移动、安置、再移动、再安置。
AI Lab在公司内部式微后,字节AI研究的重心转移到应用机器学习(Applied Machine Learning,AML),也被称作机器学习中台部门,该部门一方面负责传统产品的推广搜算法研发,另一方面被要求拓展新业务,包括搭建字节的算力集群并训练大模型。其中的关键人物包括原机器学习系统负责人朱亦博,他2023年辞职后参与创办了“AI六小龙”之一的阶跃星辰;大语言模型研发技术专家杨红霞2023年年初加入字节,曾在阿里达摩院担任M6大模型的技术负责人,也就是周畅曾经的领导,不过2024年5月她已离开字节。
在2023年年初成立Seed团队是字节在AI业务上的又一次调整,该团队主要班底来自搜索、AML、AI Lab等部门中的大模型相关人才。不仅如此,乐雁称这个团队同时还在从其他部门物色人才,以提升这个新兴业务的“人才密度”。
沈曼估计,如今Seed团队的人数应该已经超过了150人,这还仅仅只是字节研发基础模型的团队。2023年年底,字节又成立了一个名为Flow的团队,负责基于大模型的AI原生应用的研发,豆包就是其成果之一,该团队的人员增长更快,目前有近300人。除此之外,字节每个业务部门都被要求思考如何将大模型落地到相关业务场景里。
回归AI核心
字节正在自上而下地重建它的核心——人工智能。
早在2016年,张一鸣就在公司内建立了AI Lab,力邀微软亚洲研究院前常务副院长马维英、华为诺亚方舟实验室原主任李航、自然语言处理技术专家李磊等多位科学家加入,设立了包括计算机视觉(CV)、自然语言处理(NLP)、语音和音频处理、音乐、机器学习等多个子团队,几乎覆盖当时人工智能涉及的所有前沿领域。同时,这个实验室在北京、上海、深圳、新加坡、美国、欧洲等地都设有办公室。马维英被委任为AI Lab负责人,直接向张一鸣汇报。
AI Lab的设立显示了张一鸣在新技术时代的雄心。彼时的字节还不是“大厂”,它创立仅4年,只有今日头条一个爆款应用,无论公司资历还是业务体量都无法与阿里巴巴、百度、腾讯等巨头相比。那段时期,百度和腾讯已先后大手笔成立了自己的人工智能实验室,在全球招揽人才,其中百度还招募到了微软前全球执行副总裁陆奇加入。字节是那一轮AI Lab建设浪潮中鲜见的初创公司,而且它作出这一决定的时间比阿里巴巴早,后者直到2017年5月才宣布成立达摩 院。
字节后来的发展数十倍、百倍地回报了这一时期的技术投 入。
AI Lab成立的同一年9月,抖音诞生。当时,2011年就成立的快手通过“农村包围城市”策略已收获大量三四线城市用户,作为刚诞生的同类应用,抖音试图从一二线城市突破,将“音乐”“年轻”“潮流”确立为主打风格,而支持这些风格所需要的功能——变脸、换装、美颜甚至尬舞,都依赖于人工智能技术。以“尬舞”为例,它使用字节AI Lab的“人体关键点检测”技术,可以让用户在镜头前跳舞时了解自己的姿态是否和目标姿态准确匹配。2017年,抖音上线了基于该技术的“尬舞机”功能,App版本更新后的第二天,抖音就冲到了应用商店免费榜的第一名。
人工智能技术不止加持了抖音,也使字节开始成为真正的App工厂、全球化公司。2018年,张一鸣在当年举办的首届数字中国建设峰会上发表题为《技术出海,建设全球创作与交流平台》的主题演讲时表示,“人工智能技术是字节跳动在全球市场取得优势地位的关键”。不论是综合资讯类的产品TopBuzz、News Republic,还是短视频类的产品TikTok、musical.ly、Vigo Video、BuzzVideo,这些产品虽然有着不同名字,内核都是同一套人工智能技术方案——推荐算法,张一鸣称它为全球用户提供了一致的产品体验。
然而当抖音、TikTok等核心应用取得具有绝对优势的市场地位、开始步入“流量如何商业化”的阶段,AI Lab在字节的位置松动了。指标性迹象是AI Lab负责人马维英的汇报对象从张一鸣变为当时的抖音负责人张楠,这意味着AI Lab不再是个集团级的前瞻性项目,变成了服务于抖音这一应用的技术团队。
马维英于2020年年中宣布离开字节跳动,回归学界加入清华大学智能产业研究院。同在该实验室担任总监的李磊和王长虎也于次年离职,其中李磊像马维英一样重返了学界,王长虎则于2023年投入视频生成模型领域的创业。
随着核心团队成员的离开,字节AI Lab体系开始被进一步弱化和拆分。按照乐雁的说,他2020年加入AI Lab时这个部门还是字节跳动AI研究的核心部门,团队规模上百人。但次年,AI Lab重组,各个组被拆分到不同的业务线,比如图像视觉的一部分人就被划分到商业化团队下,为公司一些业务提供技术中台支持,如抖音的手势、肢体识别等AI功能。这次重组后,整个AI Lab只剩下不到50人,主要做一些偏学术方向的研究,比如机器人等,原先的视觉模型、自然语言处理等方向都已不存 在。
张一鸣很早就意识到了AI在内容分发上的巨大潜力,不过他可能没有意识到AI在内容生产上的潜力更大,大到可能颠覆其基于内容分发技术构建的产品形态和竞争优势。目前,业内已有不少创业项目都在基于生成式AI构建新一代内容社区,其中既包括可能取代小红书的文字、图文社区,也包括可能颠覆抖音、TikTok的短视频社区。如果字节不能提供相似或更好水平的内容生产技术,用户很可能会转移至其他平台。毕竟社区的本质首先是为创作者提供创作工具,其次才是表达渠道,Instagram、小红书、抖音的崛起,一再说明了这一点。
公开资料显示,早在2017年马维英就公开表达过:“在内容分发上AI算法已经做得很好了,但很多信息的需求不是靠搜索3个网页就可以满足……我们希望AI能够在创作端释放出人更多的创意。”AI Lab总监李航也曾在2022年发表论文讨论基于Transformer的“序列到序列模型”,Transformer正是后来令GPT系列模型大火的新AI架构。李航在那篇论文中提到了Google的BERT,还提到了OpenAI的GPT。当年11月的最后一天,OpenAI发布了基于Transformer的ChatGPT。到了2024年年初,字节CEO梁汝波在全员会上反思公司对大模型反应“迟钝”“直到2023年才开始讨论GPT”。
2023年紧急成立的Seed团队,某种程度上承担了AI Lab最初成立时被赋予的角色:理解和抓住眼下最前沿的人工智能技术,让字节跳动不要掉队,甚至能引领行业。
补课、烧钱与饱和式攻击
字节跳动自2023年以来的状态与其说在试图重现“大力出奇迹”的神奇功效,不如说是一种担心被落下的补课。
不仅在人才端抢人,应用端也在抢用户。据《第一财经》杂志统计,字节目前还在正常运营的AI应用有大约20款,其中绝大部分是在2024年以后发布的。而在模型层,2023年只正式发布了语言模型的字节,在2024年相继补全了图像、语音、音乐、视频、3D等不同模态的生成式AI模型。在这一轮生成式AI浪潮中起步最晚的字节,已经成为目前拥有最全生成式AI模型、最多AI应用的技术公司。
字节再一次祭出了拿手好戏:内部赛马,外部“小步快跑、敏捷迭代”,以及烧钱。
乐雁对《第一财经》杂志说,现在Seed和Flow是字节明面上的生成式模型与应用部门,但当公司高层都将目光投向这个领域时,每个有AI研发能力的团队都在尝试研发出更好的模型或产品,争夺更多的资源与升职的机会。“就比如Seed最近同时发了两款视频模型(SeaWeed和PixelDance),这两个模型其实是不同小组做出来的,最后都放出来说明这两个模型确实在能力上各有千秋,”他说,“如果其中某个团队的模型哪怕稍弱一点,那压根就不会被外面看到,字节一直都是这种赛马模式。”
面对外部,字节则采取了一贯的“饱和式攻击”。以Coze为例,它对应的是AI智能体最热门的应用场景之一,它允许用户自己创建定制化的聊天机器人,并且这个机器人能将各种功能节点(如插件、模型、代码)按照一定的顺序和逻辑关系连接起来,创建出复杂的业务流程,以实现特定的任务或功能。
白话Agent主理人古德白今年年初就一直在尝试基于AI工作流做营销工具,他告诉《第一财经》杂志,Coze几乎每天都在更新版本,这需要大量资源投入和团队配置,字节雇用了大量外包公司完成最后的产品测试,“创业公司很难应对这样的饱和式攻击。”古德白说。而且Coze推出时直接采取“模型免费使用”策略,导致国内最早落地AI工作流功能的另一个平台FastGPT迅速沉寂,Coze则后来居上。
字节也是今年年中国内大模型价格战的发起者。2024年5月,火山引擎FORCE原动力大会上,字节跳动在正式发布豆包大模型的同时向模型的B端价格挥起屠刀,豆包通用模型pro-32k版的推理输入价格仅为0.0008元/千tokens,比行业均价低99.3%。这意味着客户花一元钱就能让豆包模型处理200万个汉字,相当于3本《三国演义》——当时花同样的钱只能向GPT-4输入不到4000字,甚至不够一篇短篇小说。面对字节发起的价格战,竞争对手不得不快速跟进。阿里云将其通义千问主力模型的价格下调97%;百度甚至直接宣布文心两款轻量级模型免 费。
面向C端用户的AI应用上,字节烧起钱来更是毫不手软,花钱投流买量成为它实现产品冷启动最直接快速的方式。据广告情报分析平台AppGrowing统计,豆包智能助手4月、5月的投放金额接近1800万元,等到6月上旬,投放金额飙升至1.24亿 元。
与此同时,字节还限制了豆包的竞对产品在抖音平台的广告投放。其中受影响最大的就是智能助手Kimi,这个由“AI六小龙”之一月之暗面推出的产品,在豆包下场前曾经依靠在抖音、哔哩哔哩等平台的投放快速起量,但一位“AI六小龙”的员工说,豆包不仅复制了这个成功路径,还依靠其母公司字节跳动的力量,限制了包括Kimi在内的对手在抖音内的广告推送。
结果就是,今年3月,Kimi依靠社交平台的广告投放超过百度旗下的同类产品“文小言”(原文心一言),成为月活最高的原生生成式AI应用。4个月后,Kimi被豆包超越。一个月内,豆包的月活用户数量从904万陡然上升至5127万,把广告投放没那么激进的Kimi和文小言远远甩在后面。“AI产品榜”的数据显示,10月豆包的排名以近7000万月活用户在中国AI产品中断崖式领先,同为智能助手的Kimi与文小言分别只有约3900万和3400万月活。
用花钱的方式买用户的成本目前还不算高。一位熟悉Kimi投放策略的人士对《第一财经》杂志说:“目前Kimi、豆包的用户留存率还很健康,单个用户获取成本只有十几元,这是相当划算的数字,成熟阶段互联网产品的用户获取成本都在好几百 元。”
但这些用户有没有忠诚度就是另外一回事了。以视频生成领域为例,今年7月,Luma AI发布的最新模型Dream Machine 4天内获得了1000多万用户,这些人最早是Runway的用户,后来Pika发布时也曾涌入Pika。而且,广告投流能带来的边际效益也在减少。综合Similarweb发布的投流数据和App Growing发布的用户数据,不久前阶跃星辰的智能助手跃问也在疯狂投放,花了近7000万元,但截至今年10月只转化来不到2万个新用户。
与字节的激进形成对比的是国内其他大厂和初创公司们的谨慎。
除了字节,其他中国技术公司对生成式AI的热情都在消退——以积极的视角看,这个领域正在变得理性。最早押注AI的李彦宏在刚刚召开的第三季度总监会上表示,“百度不碰Sora类的视频生成”,并且在文小言的推广上选择“稳健”而非“激进”;阿里不再执着于开发all in one的AI超级应用,而是将更多精力放在AI云服务上;短视频巨头快手至今没有推出过语言模型应用,而是集中在视频模型的开发与应用上。多位人士向《第一财经》杂志证实,随着国内模型在能力上逼近GPT-4,以及GPT-5的一再延迟,多家公司尤其资源有限的初创公司对于投入训练下一代基础模型(通称“预训练”)变得谨慎。甚至有投资人称暂停“预训练”的AI六小龙不止两家。
一位业内人士告诉《第一财经》杂志,独角兽们选择暂缓预训练下一代大语言模型的原因之一,是即便预训练一个比现有模型好1代甚至1.5代、超越GPT-4的模型,其推理能力仍然达不到让终端应用从陪伴领域进入生产力领域的产品需求。GPT-4o目前在生产力领域的应用状况已经说明了这一点。根据阶跃星辰创始人姜大昕在阿里云栖大会上提到的数据,GPT-4达到万亿级参数后,再去提升参数量,边际收益是下降的。
字节却没有减速的迹象。沈曼对《第一财经》杂志透露,预训练人才是字节目前最急要的人才类型。最近字节成立了一个叫“大模型研究院”的机构,从名字看,它可能承担比基于现有算法训练模型更为前沿的任务。最初的市场传言称,从阿里云挖来周畅就是让他负责这个团队。不过也有消息称,为避开竞业协议,周畅被派去了新加坡就职,工作方向是具身智能,研究机器人在物理世界中自由行动需要的“世界模型”(world model)。AI Lab在字节式微,其仍然被张一鸣看重并重点投入的最后一个研究方向就是机器人,这些机器人被认为可以服务于字节的电商履约需求。
豆包目前还没有盈利,据Acecamp上一份专家访谈纪要,字节跳动对于大模型的财务政策是“推理层不亏”,即模型训练阶段所需要的研发投入、芯片算力投入、人员成本方面可以承受战略性亏损,而模型投入应用后每次调用的成本需要降低。豆包目前对于B端用户按照API调用收费,平均每1亿个tokens调用收费约为80元至200元,豆包能从这种调用中获得8%-10%的毛利。尚未向C端用户收费。访谈纪要称,从2023年至2024年,字节跳动通过“模型蒸馏”,将模型尺寸从300B降到了80B左右,大幅降低了算力开销。
目前,豆包还没有向C端用户收费,一大原因仍然是产品不够,一旦开始收费用户就可能流失。纪要提供的数据称,每个豆包用户每天使用该应用的平均时长只有10到11分钟,而且这个时长是多次使用后的累积数字,如果平摊到每次使用时长,数字就会降低为2分钟,即用户每次打开豆包基本只会进行3到4轮对话就会结束。“如果2分钟内未能满足需求,他们可能会切换到其他应用,而不一定是其他AI工具。例如,用户可能会打开微信、小红书等应用。”纪要中称。
豆包已经是目前国内用户量最大的原生AI了。然而字节对此有个更激进的目标,即今年年底实现1亿月活。
日后看,字节的饱和式投入中一定有不少比例是浪费的,但眼下的现实状况是,它不得不为新技术时代的到来做足准备。作为字节一直以来——从社交媒体到元宇宙——的战略对标对象,Meta也在以上百亿美元的规模投入AI,MetaCEO扎克伯克在最近一次与英伟达CEO黄仁勋的对谈中解释为什么这么做时说:“今天你在Instagram上看到的大部分内容是根据你的兴趣匹配给你的……在未来,我认为这些内容会由创作者使用AI工具创造,或者由AI综合生 成。”
字节的财务状况在众多大厂中还算不错。据科技媒体The Information报道,2024年上半年字节跳动的营收约为730亿美元(约合5280亿元人民币),这一数字已经远远超过腾讯同期3206亿元的营收,接近Meta。而字节目前的估值只有Meta的1/5。若有资金需要,它还比其他公司都多一个可观的融资渠道:上市。不过它的造血业务——广告和电商的增速已在快速放缓。今年前三季度,字节中国区单季度广告同比增速从40%左右跌至17%以内,已有两个季度未能达成既定目标。与此同时,抖音电商的销售额增速也已从年初的超过60%跌至9月的不到20%。成熟业务的增速一旦变成个位数,字节能够支持新业务的现金流就会受限。
不过对一个试图进行重大转型的公司来说,上市并不是个好选择——上市之前转型成功的公司多见,上市后成功的则不多。对字节而言,造血能力决定一切。
(应采访对象要求,文中沈曼、乐雁为化名)