亚马逊宣布推出了未来可能替代英伟达GPU的AI芯片。AWS的Trainium2芯片,将用来构建一个40万卡的集群,训练下一代Claude模型,而且苹果宣布会使用它来训练和部署Apple Intelligence。
正在拉斯维加斯举行的re:Invent大会上,AWS推出的Trn2服务器(16片Trainium2)提供20.8 Pflops性能,可训练数十亿参数模型,试图媲美英伟达和AMD的GPU。Trn2 UltraServers(64片Trainium2)高峰时提供83.2 Pflops算力,完全可以用来训练和部署最大的模型,包括语言、多模态和视觉模型。
AWS还宣布了下一代AI芯片Trainium3的计划。预计将比Trainium2提升2倍的性能,改善40%的能效,3纳米制程,将于2025年底推出。
目前,亚马逊基于Trainium1和Inferentia2的实例,在生成式AI前沿模型训练或推理方面还不太具有竞争力,这是由于硬件规格较弱以及软件集成较弱所致。但随着Trainium2的发布,亚马逊已经做出了重大的调整,正在芯片、系统和软件编译器/框架层面向英伟达产品看齐,提供有竞争力的定制硅芯片解决方案。
苹果公司也非同寻常地对外介绍了它与云服务商之间的合作细节,并且表达出积极合作构建AI的意愿。苹果已经使用AWS服务超过十年,用于Siri、Apple Maps和Apple Music。苹果还一直使用亚马逊的Inferentia和Graviton芯片来支持搜索服务。苹果方面称,亚马逊的这些芯片带来了40%的效率提升。
苹果最近还将用Trainium2进行其自有模型的预训练。苹果对它的初步评估显示,预训练效率提升了50%。苹果在决定开发Apple Intelligence之后,马上就找到了AWS,寻求AI基础设施的支持。苹果也使用过谷歌云的TPU服务器。
苹果正在引领着个人AI的应用方向,即把AI模型向端侧部署,主要用本地化的计算为用户提供定制化与个人化的AI服务,注重保护用户的隐私。
所以,对于苹果来说,最重要的不是用十万张卡去训练大模型,而是用AI更好地服务其20多亿设备用户,即在iPhone、iPad、Mac等设备上,用自研芯片提供本地算力,只有那些较复杂的计算任务才上云端。苹果还需要云服务商能配合它进行隐私计算。
Apple Intelligence有自己的步调,它先推出内容提炼、起草邮件、生成表情包等最基本的功能,很快会集成OpenAI的大模型服务,明年会加强Siri功能,因为智能体技术的加持,它更像个能办事的助理,调动手机App完成用户吩咐的任务。
而且AWS正在与Anthropic合作,打造40万Trainium2卡级的算力集群,用来训练下一代的Claude大模型。这个项目名称为Project Rainer,将为Anthropic提供的算力5倍于训练现有模型的Eflops。亚马逊对Anthropic最新的40亿美元投资,实际上将用于这个40万卡集群,目前还没有其他主要客户。
马斯克的xAI已经建好了10万H100算力集群,而且放也豪言要再买30万张B200;扎克伯格正在用一个超过10万H100的集群加班加点地训练Llama4,更不用说微软/OpenAI等,10万H100已经成为参与军备竞赛的起步价。
但Trainium算力集群真的要挑战英伟达GPU,还要付出更多努力。据半导体咨询机构semianalysis分析,40万颗Trainium2的原始浮点运算性能仍少于10万GB200集群。这意味着由于阿姆达尔定律的限制,Anthropic仍将很难与竞争对手10万卡GB200集群匹敌。在40万颗Trainium2和EFA上执行集合通信将非常困难,因此Anthropic需要在异步训练方面进行一些重大创新。
*作者注:EFA代表Elastic Fabric Adapter,是AWS提供的一种高性能网络接口技术,主要用于支持高性能计算(HPC)和机器学习工作负载。
三大云巨头AWS、微软Azure和谷歌云,目前数据中心芯片主要来自英伟达、AMD和英特尔。同时,它们也在积极探索自己研制芯片,会带来成本及定制化服务等方面的好处,既用于通用计算负载,也用于加速计算,如大模型的训练和推理。AWS称,通过Trainium,Anthropic的大模型Claude Haiku 3.5,速度比其他芯片提升了60%。
随着生成式AI日益进入大规模应用阶段,企业将会寻找更加适合具体应用、为客户定制化、价格更亲民、更具能效的芯片和算力解决方案。
2025年我们会看到一个趋势,更多的算力会部署到推理侧进行强化学习,以及AI的大规模应用,这些都对芯片、服务器、工具、架构、服务等提出新的定制化要求,从而为云服务商的硅技术和初创芯片企业带来新的机会。