


IT之家 12 月 18 日消息,据路透社报道,知情人士透露,Alphabet 旗下的谷歌正在推进一项新计划,旨在提升其人工智能芯片运行全球最主流 AI 软件框架 PyTorch 的性能,此举意在削弱英伟达在人工智能计算市场长期以来的霸主地位。
据IT之家了解,该计划是谷歌雄心勃勃的战略布局之一,核心目标是让旗下张量处理单元(TPU)成为英伟达市场领先的图形处理器(GPU)的可靠替代品。随着谷歌试图向投资者证明其人工智能相关投资已产生回报,TPU 的销售额已成为谷歌云业务收入的关键增长引擎。
但知情人士表示,仅凭硬件优势不足以推动客户广泛采用。这项内部代号为“TorchTPU”的新计划,旨在消除阻碍 TPU 芯片普及的核心障碍 —— 通过实现 TPU 与 PyTorch 的完全兼容,并提升对开发者的友好度,来吸引那些已基于 PyTorch 构建技术架构的客户。部分知情人士还透露,谷歌正考虑将该软件的部分组件开源,以加快客户的采用进程。
知情人士称,相较于此前为支持 TPU 运行 PyTorch 所做的尝试,谷歌此次对 TorchTPU 投入了更多的组织关注度、资源与战略权重。背后的原因是,越来越多有意采用 TPU 的企业认为,相关软件栈是制约芯片落地的瓶颈。
PyTorch 是一个由 Meta 公司深度支持的开源项目,也是人工智能模型开发者最常使用的工具之一。在硅谷,极少有开发者会逐行编写能在英伟达、AMD 或谷歌芯片上直接执行的代码。
相反,开发者们会依赖 PyTorch 这类工具,其整合了大量预先编写的代码库与框架,能够自动化完成人工智能软件开发中的诸多常见任务。PyTorch 于 2016 年首次发布,其发展历程与英伟达的并行计算架构(CUDA)紧密相连。部分华尔街分析师认为,CUDA 正是英伟达抵御竞争对手的最强壁垒。
英伟达的工程师耗时多年优化,确保基于 PyTorch 开发的软件能在其芯片上实现极致的运行速度与效率。相比之下,谷歌长期以来一直让内部的大批软件开发人员使用另一款名为 Jax 的代码框架,旗下 TPU 芯片则通过 XLA 工具来提升代码的运行效率。谷歌自身的大部分人工智能软件栈与性能优化工作均围绕 Jax 展开,这使得谷歌自身的芯片使用方式,与客户期望的使用方式之间的差距逐渐拉大。
谷歌云发言人未就该项目的具体细节置评,但向路透社证实,此举将为客户提供更多选择。
该发言人表示:“我们看到市场对我们的 TPU 和 GPU 基础设施的需求正在大规模激增。我们的核心关注点是,无论开发者选择基于何种硬件进行开发,都能为他们提供所需的灵活性与规模支持。”
面向客户的 TPU
长期以来,Alphabet 将旗下大部分 TPU 芯片优先用于内部业务。这一局面在 2022 年发生改变,谷歌云计算部门成功游说公司,接管了负责 TPU 销售的团队。这一调整大幅增加了谷歌云的 TPU 配额。随着客户对人工智能的兴趣日益浓厚,谷歌也在通过扩大产能、向外部客户销售 TPU 的方式,把握这一市场机遇。
然而,全球多数人工智能开发者使用的 PyTorch 框架,与谷歌芯片目前高度适配的 Jax 框架之间存在兼容性鸿沟。这意味着,大多数开发者若想采用谷歌芯片,并使其性能媲美英伟达产品,就必须投入大量额外的工程开发工作。在竞争激烈的人工智能赛道,这些工作既耗时又耗钱。
若“TorchTPU”计划能成功落地,将大幅降低那些寻求英伟达 GPU 替代品的企业的迁移成本。英伟达的市场主导地位不仅源于其硬件优势,更得益于其 CUDA 软件生态系统,该系统已深度嵌入 PyTorch,成为企业训练和运行大型人工智能模型的默认方案。
知情人士称,企业客户向谷歌反馈,TPU 在人工智能工作负载场景中较难推广,原因在于过去使用 TPU 往往要求开发者放弃行业主流的 PyTorch,转而使用谷歌内部偏好的机器学习框架 Jax。
与 Meta 的合作
知情人士透露,为加速开发进程,谷歌正与 PyTorch 的研发与维护方 Meta 展开紧密合作。此前《The Information》曾报道,两家科技巨头正在洽谈相关合作,拟让 Meta 获得更多 TPU 的使用权。
谷歌最初向 Meta 提供的是托管服务模式 —— 像 Meta 这样的客户可部署谷歌专为运行其软件和模型设计的芯片,同时由谷歌提供运维支持。知情人士表示,Meta 在推动 TPU 兼容软件的开发方面有着明确的战略考量:此举有助于降低模型推理成本,推动其人工智能基础设施摆脱对英伟达 GPU 的依赖,从而在合作谈判中掌握更多主动权。
Meta 方面则拒绝就此置评。
今年以来,谷歌已开始直接向客户的数据中心销售 TPU,不再将其使用权限局限于自家云平台。本月,谷歌资深高管阿明・瓦赫达特被任命为人工智能基础设施负责人,直接向谷歌首席执行官桑达尔・皮查伊汇报。
谷歌的人工智能基础设施肩负着双重使命:既要支撑 Gemini 聊天机器人、人工智能驱动的搜索引擎等自研产品的运行,也要为谷歌云的客户提供服务,例如,向人工智能公司 Anthropic 等企业出售 TPU 的使用权。
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”