雷军亲自挖人,为95后“天才少女”开出千万年薪
科技
科技 > 人工智能 > 正文

雷军亲自挖人,为95后“天才少女”开出千万年薪

红星资本局12月30日消息,近日,国产大模型DeepSeek在全球爆火,并带火95后AI“天才少女”罗福莉。据悉,罗福莉曾在DeepSeek参与了DeepSeek-V2的研发,是这款模型的关键开发者之一。

AI的风狂吹,小米创始人雷军闻声而动,在DeepSeek-V3发布前几天,其已开出千万元年薪招揽罗福莉,领导小米AI大模型团队。今年11月,小米还成立了专门的AI平台部。

“AI界拼多多”面世

来自量化资管巨头幻方量化

近日,国内AI初创公司DeepSeek发布了新一代大语言模型DeepSeek-V3,同时宣布开源。在多项基准测试中,V3的成绩超越了主流开源模型,并和世界顶尖的闭源模型不分伯仲。

同时,由于其极低的训练成本,DeepSeek-V3被称为“AI界拼多多”。

据最新发布的技术报告,DeepSeek-V3参数量为671B,激活参数为37B,使用的预训练token量为14.8万亿。其多项评测成绩超越了阿里的Qwen2.5-72B和MetadeLlama-3.1-405B等其他开源模型。此外,其训练成本仅为GPT-4o的二十分之一;售价也低,输入+输出价格约为GPT-4o的十分之一。

DeepSeek在其53页的技术论文中披露:“我们的预训练阶段在不到两个月的时间内完成,成本为2664K GPU小时。结合119K GPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的完整训练成本仅为2.788M GPU小时。假设H800 GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。”

极高的性价比让DeepSeek-V3一经发布便引发国内外惊叹。

公开资料显示,DeepSeek专注于开发先进的大语言模型和相关技术,由国内知名量化资管巨头幻方量化于2023年7月创立,也因此获得资本市场的广泛关注。

95后AI“天才少女”火出圈

北大毕业,曾就职于达摩院

DeepSeek爆红后,DeepSeek-V2的关键开发者之一罗福莉也火出圈,被称为95后AI“天才少女”。

48e2ebb099134642451fa60db820af0.jpg

图据“罗福莉”微信公众号

公开资料显示,罗福莉本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学专业。2019年,还在北大读硕士的她在人工智能领域顶级国际会议ACL上发表8篇论文(其中2篇一作),登上了知乎热搜。

硕士毕业后,罗福莉先是进入阿里达摩院做人工智能研究,从事预训练语言模型相关的工作,负责阿里达摩院AliceMind开源项目,主导开发了多语言预训练模型VECO。2022年,罗福莉加入幻方量化从事深度学习相关策略建模和算法研究,后又跳槽到DeepSeek担任深度学习研究员,参与研发MoE大模型DeepSeek-V2。

今年5月,在DeepSeek-V2发布以后,罗福莉在知乎上撰文,发表了对于DeepSeek-V2的看法。她表示,“单论DeepSeek-V2模型的中文水平,是真实处在国内外闭源模型的第一梯队”,“外加1元/百万输入Tokens的价格,只有GPT4价格的1/100,性价比之王”。

雷军砸千万招人

小米11月刚成立专门的AI平台部

据报道,在DeepSeek-V3发布前几天,小米创始人雷军已开出千万元年薪招聘罗福莉,领导小米AI大模型团队。

值得注意的是,小米在AI领域早有布局,罗福莉的加入无疑是助力。

2023年4月,小米正式组建了AI实验室大模型团队,并表示将不断挖掘AI相关的用户场景,发挥自身技术优势,并以开放的态度与合作伙伴开拓更多机会。

今年11月,小米成立了专门的AI平台部,小米的元老级技术大牛张铎为负责人。张铎本硕毕业于清华计算机系,曾被雷军公开称赞是“小米的大神”,送以“铎神”的称号。

此外,小米近段时间正在搭建GPU万卡集群,规模较其大模型团队成立时的约6500张GPU大幅增加。这一计划已施行数月,由雷军亲自领导。

小米集团总裁卢伟冰透露,预计2024年小米研发费用将达到240亿元,2025年更是将攀升至300亿元。他预计,自2022年至2026年的五年内,小米的研发投入将超过1000亿元,主要聚焦于AI、OS、芯片三大底层技术的研发。

数据显示,小米自2016年组建AI团队以来,经过多次扩展,相关领域人员规模已达3000多人。

编辑 邓凌瑶 综合自证券时报、21世纪经济报道

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载