Claude Opus 4.8来了！两个史上首次改写历史

2026年05月29日 07:26:18 来自北京

新智元报道

【新智元导读】Opus 4.7发布刚43天，Opus 4.8就来了！编程实力暴增，全面霸榜。Claude Code一口气放出上百个agent并行干活，一个人11天就能重写75万行代码、99.8%测试通过。更狠的Claude Mythos，几周后就来。

猝不及防，Anthropic深夜杀回来了！

就在刚刚，Claude Opus 4.8正式登场，一举夺回全球AI王座。

而且价格还一分没涨，跟上一代一模一样。

无论是编程、人类最后考试（HLE），还是在智能体、计算机使用任务中，Opus 4.8几乎无可匹敌。

在衡量真实世界Agent能力的硬核榜单GDPval-AA上，Opus 4.8拿下了1890 Elo，断层第一。

比上一代Opus 4.7高137分，比GPT-5.5高121分。换算成对战胜率，赢面高达67%。

不仅如此，完成同样的任务，要比4.7少用15%的步骤，少输出35%的token。

可谓是，又快，又强，又便宜。

知名博主Mark Kretschmann一句话点破它的来头——Opus 4.8可能就是蒸馏的Mythos。

更重磅的是，这个最强的Claude Mythos，几周内就会上线。

Opus 4.8，两个0%改写历史

跑分之外，Anthropic这次反复强调的，就俩字，诚实。

用过LLM的人应该都体验过，写完一段代码之后，AI拍着胸脯告诉你「搞定了，没问题」，但实际上却埋着一堆雷。

被这种过度自信坑过的开发者，海了去了。

但到了Opus 4.8这里，「写完有缺陷代码却闷不吭声」的概率，比4.7低了差不多4倍！

下面这张图中，右边是「谎报率」，衡量模型在数据处理有缺陷时装作没事的频率。

Opus 4.5是0.40，Opus 4.7是0.25，Opus 4.8是0.00。

没有小数点后面的零头，就是0。

Opus 4.8是第一个在此评估中拿到满分的模型，它从不汇报虚假数字。

另一张图是「偷懒调查率」。

之前的模型遇到需要追查的问题时，经常敷衍了事给个错误答案。

Opus 4.7有25%的概率偷懒，而Opus 4.8依然是0%。

两个0%，两个历史首次。

这不是什么抽象的对齐指标。Anthropic官博放了一段视频，把这件事讲得很具体。

一个开发者用Claude Code + Opus 4.8在迁移代码，出门放风筝去了，Claude在后台自己跑。

跑到一半，代码提交被服务器拒绝了，原因是同事在这期间也提交了一个紧急修复。

Claude通过手机通知开发者，说自己打算先合并同事的修改再重试。开发者嫌麻烦，随手回了一句「直接强制覆盖就行」。

然而，Claude拒绝了——

不强制覆盖。那样会丢掉同事11:42提交的紧急修复。我已经把两边的改动合并好了，代码完全一致，提交历史也干净。已推送。

用户图省事让AI走捷径，AI判断出这样做会覆盖同事的工作，拒绝执行，自己选了正确方案。

编码实力暴增，全面霸榜

值得一提的是，在长达244页的系统卡中，还藏着更多Opus 4.8编码能力的细节。

https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf

最经典的SWE-Bench Pro测试，Opus 4.8拿下了69.2%成绩，比GPT-5.5整整高出10个百分点。

接着是一项更刁钻的测试，ProgramBench。

任务是给你一个编译好的二进制文件加一份项目文档，不准反编译、不准联网，让模型从零把源代码重建出来，还得跑通行为测试。

结果，所有上下文预算档位上，Opus 4.8的通过率全部高于4.7。

而且在低预算（1M token）时，Opus 4.8就能拿到约79.5%，Opus 4.7在5M时也才84%左右。

说白了就是：给更多「思考时间」，模型表现更好；同样的预算下，4.8全面领先4.7。

最后，是一个专冲「人类能力天花板」去的榜单——FrontierSWE。

这里出的全是硬核系统工程的活儿，用Zig从零写一个PostgreSQL服务器、把git整个重写一遍、做一个Lua的原生编译器。

没想到，Opus 4.8以高达83%的胜率登顶，把第二名的GPT-5.5和前代4.7全压在身后。

不过，Opus 4.8也有够不着的地方。

在评估「Claude能否自动化AI研发」的核心指标上，它把Anthropic的能力前沿再往前推了一步。

这哪是4.8，分明是Opus 5

在第三方的实测中，Opus 4.8的实力完全就是Opus 5的存在。

Every团队一篇报告中，直言Opus 4.8的编码实力好太多，比上一代高出30分。

甚至，它完成了一次从0开始的生产级代码库重写，并且真的构建出了可运行的成果。

在写作方面，它比GPT-5.5高出6分，AI味儿瞬间淡了，生成的文本更加流畅。

而且，Opus 4.8撰写的报告、研究等知识工作任务中，表现极其出色，可以做到一次直出PPT。

沃顿商学院CS教授Ethan Mollick给出的评价是，「令人印象深刻」！

实测中，Opus 4.8一次性就生成了在twigl中运行的、效果炫酷的着色器。

再来看一个，Opus 4.8和Opus 4.7并排测试。

上百个Agent并行干活

11天重写底层

强成这样，它该使多大劲，这次居然轮到用户说了算。

先说effort control（思考力度）。模型旁边，多了个从Low到Max的五档选择。

简单问题挂Low，秒回还省额度；遇上硬骨头直接拉满Max，让它往死里想。

fast mode也跟着大降价，2.5倍速狂奔，价钱反倒砍到三分之一。

而五档之上，还埋着一个真正的狠角色，ultracode。

effort一旦顶到xhigh，它就自己掂量，这活儿值不值得叫上一整支agent大军。

这支大军，就是dynamic workflows，藏在Claude Code里的真正重武器。

它把AI干活的方式，从一个人改一道题，变成了开一座工厂。

需要注意的是，dynamic workflows的token消耗远高于普通session，建议先从小范围任务试起。

现在，Claude接到一个大活后不再自己埋头硬刚，而是当场写出一段调度脚本，把任务拆成几十上百个子任务，撒给一大群subagent并行去做。

做完还不算完，再派另一拨agent从不同角度反复盘问、互相挑刺，吵到答案收敛了，才汇总成一份结果交给你。

整个调度发生在对话之外，所以活儿再大，主线也不会乱。中途断了还能续上，不用从头再来。

举个例子，Bun的作者Jarred Sumner，想把这个比Node.js还快的JavaScript运行时，整个从Zig重写成内存更安全的Rust。

这种迁移，放在过去是一支团队按季度算的工程。

不过，这次Sumner有了dynamic workflows。

一个workflow先把Zig代码里每个结构体字段对应的Rust生命周期挨个标好，下一个workflow把每个文件逐一翻成行为一致的Rust版本，几百个agent同时开工，每份文件还配两个审查员，再用一个修复循环驱动编译和测试，一路推到全绿。

结果是，约75万行Rust代码，99.8%的原有测试通过。从第一次提交到合并，只用了11天。

社区当场炸了锅。这场迁移产生了六千多次提交，几乎没有经过人类逐行审查。

估值万亿美金

Claude Mythos要来

能力夺回第一的同时，Anthropic的身价也头一回压过了OpenAI。

就在刚刚，Anthropic完成了650亿美元H轮融资，估值9650亿美元，首次超越OpenAI（8520亿美元）。

一夜之间，它成了全球估值最高的AI初创公司！

然而，站在IPO前夜，这两大巨头的ASI的巅峰对决才真正开始。

正如博客所预告的那样，Anthropic手中最大的王牌——Claude Mythos将在未来几周上线。

届时，这场属于AI巨头间的终极拉锯战，才算拉开帷幕。

Claude Opus 4.8来了！两个史上首次改写历史

亲爱的凤凰网用户:

第三方浏览器推荐: