1亿美金砍到50万!这家中国公司让训练成本暴跌200倍,算力公司要破产了
科技
科技 > 人工智能 > 正文

1亿美金砍到50万!这家中国公司让训练成本暴跌200倍,算力公司要破产了

还记得半年前 DeepSeek 横空出世时的震撼吗?那个用不到 OpenAI 1/20 的成本就训练出顶级模型的"神话",不仅让整个硅谷为之侧目,更是给国内的 AI 创业公司上了生动的一课——原来,大模型可以这样玩。

DeepSeek 冲击波下的转型之路

对于被称为"AI 六小龙"的 MINIMAX 来说,DeepSeek 的出现无异于一记当头棒喝。过去的剧本突然就讲不下去了:疯狂烧钱买算力,追着 OpenAI 的脚步跑,今天发个大模型,明天搞个视频生成...看起来很忙,但总感觉在原地打转。

投资人开始问:"既然 DeepSeek 能用这么少的钱做出这么好的效果,你们之前烧的那些钱都去哪了?"用户开始问:"既然有免费的 DeepSeek,我为什么还要付费用你们的 API?"

但 MINIMAX 的反应出人意料地迅速和果断。他们没有选择继续讲老故事,而是彻底换了剧本:从追逐热点转向硬核技术突破,从商业化优先转向开源优先,从模仿 OpenAI 转向对标 DeepSeek。

实际上,MiniMax 在今年 1 月份就推出了开源模型 Minimax-01,其中包括语言模型和视觉模型,但似乎反向平平。

半年的蛰伏与沉淀后,他们暂停了所有非核心项目,把最优秀的工程师都调到了一个神秘的项目上。

MiniMax-M1:半年磨一剑的技术突破

昨天,MINIMAX 终于交出了答卷——MiniMax-M1,他们宣称这是世界上第一个开源的大规模混合架构的推理模型。这不是一个匆忙的应景之作,而是一次深思熟虑的技术革新。

🚀 突破一:Lightning Attention - 超长文本处理

M1 原生支持100 万字符的超长文本处理,处理 10 万字文本时只需要其他模型 25% 的计算资源。这意味着可以一次性分析整本小说或研究报告,而不需要拆分处理。

⚡ 突破二:CISPO 算法 - 更聪明的学习方式

传统训练方法会忽略"不寻常"的学习过程,但 CISPO 算法不再丢弃任何"思考片段",充分利用每个思维火花。实验显示,这种方法比传统方法快 2 倍,效果还更好。

💰 突破三:超低成本训练

仅用 53.74 万美元就完成了整个强化训练,相比 GPT-4 超过 1 亿美元的成本,M1 几乎是同等能力模型中最便宜的。这不是简单的"省钱",而是技术效率的革命性提升。

需要说明的是,53.74 万美元并非模型的全部训练成本,而仅仅是强化学习阶段的费用。MINIMAX 表示他们仅用 512 块 H800 GPU 训练了三周就完成了这一阶段,这一效率比行业预期至少提升了一个数量级。

不过,与 DeepSeek 不同的是,MINIMAX 并未公布模型从预训练到最终完成的完整训练成本(不包括实验费用)。因此,53.74 万美元这个数字虽然令人印象深刻,但可能只是冰山一角。

实战表现:数据说话的硬实力

经过半年的技术沉淀,MiniMax-M1 在各个关键领域的表现如何?我们用一张完整的对比表来看看它与顶级模型的真实差距:

虽然 M1 把训练成本又下调了一个数量级,但在常见的指标测试中,这个模型并无一项能到最优。比较亮眼的是长文本能力,在 MRCR(128K) 测试中得分 73.4,仅次于 Gemini 2.5 Pro 的 76.8,在 LongBench-v2 中更是达到 61.5 的第二名成绩,可见 Lightning Attention 确实非常有效。

值得一提的是,M1 有两项指标超越了 DeepSeek R1,即数学方面的 AIME 2025(76.9 vs 70.0)以及编程能力方面的 LiveCodeBench(65.0 vs 55.9)。这表明 MINIMAX 在核心技术突破上确实有所建树。

尽管综合来看,这些指标并不算最亮眼,但作为第一款开源模型,在成本控制以及长文本处理方面有这么突出的创新,已经非常难能可贵了。

从跟随者到引领者的华丽转身

MINIMAX 的转型反映了 AI 行业的变化趋势。从追逐商业化到选择开源路线,从高成本训练到技术效率优化,这种策略调整与当前行业对成本控制和技术创新的重视相符。

开源模式正在 AI 领域获得更多关注。DeepSeek 的成功为行业提供了新的发展思路,而 MiniMax-M1 的发布进一步验证了这一方向的可行性。随着更多公司选择开源策略,行业竞争重心可能会从资本投入转向技术创新。

从追逐者到开拓者,MINIMAX 用半年时间完成了一次完美的转身。这一转变表明"AI 六小龙"已经开始探索新的发展路径。

算力泡沫破灭:一场正在发生的行业洗牌

从 1 亿美金到 50 万美金,训练成本在短短的 1 年时间内的暴跌,正在引发整个算力市场的剧烈震荡。这不仅仅是数字的变化,更是一场颠覆性的行业重构。

那些曾经疯狂囤积算力的公司,如今面临着尴尬的现实:昂贵的 GPU 集群突然变成了"负资产"。据业内消息,AI六小龙之中多家已经大量退卡,试图减少损失。

而一些专门提供算力租赁服务的供应商,更可能直接面临破产危机——当客户发现用更少的钱就能获得更好的效果时,谁还会为过时的"算力迷信"买单?

这场技术革命告诉我们:真正的护城河从来不是资源的堆砌,而是效率的突破。 在 AI 的下半场,拼的不再是谁烧钱更多,而是谁的技术更聪明。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载