人类程序员,最晚2031年下岗?
科技
科技 > 人工智能 > 正文
站内

人类程序员,最晚2031年下岗?

让智能体先通往AGI,已经成为共识。OpenAI连番推出昂贵的新功能,o1-Pro比普通版贵了10倍,比R1贵了上百倍。Grok则悄悄上线了DeeperSearch。让它们率先替代码农和研究员,似乎正在成为大模型兑现商业价值最现实的方向;其他行业可以踩在他们的肩上。

也许人类员工可以稍微松口气。尽管今年Meta和微软再次开启大规模裁员,但被裁的都是绩效考核不如人类同事的。被AI智能体同事大面积地顶替下去,至少要到2028年,更可能是2031年。

如果有一个智能体的“摩尔定律”,用来衡量智能体所能解决的任务的复杂程度——以人类专家完成相同任务所需时长来量化——为人类完成工作所节省的时间越来越长,准确率越来越高,这个摩尔定律,终有一天会通向完全替代人类完成复杂问题。

最近,研究机构METR发现,目前的智能体,还没办法替代人类,去完成那些本该人类花1小时以上的时间才能完成的软件任务。不过,智能体解决复杂任务的能力在进步,相当于为人类专家节省的时间,平均每7个月翻一番。2028年后,它们就有50%的成功率,完成人类本该在1个月内(约160工作时)完成的任务了。

这与最近OpenAI和Anthropic的说法不同,从奥特曼到阿莫迪,都在说今年内智能体编程可以胜过人类。但研究认为,AI只能胜任人类不用4分钟就能完成的任务,也就是说最简单的任务。

METR(模型评估与风险研究)是美国人工智能安全研究所联盟(AISIC)的成员机构,为OpenAI、Anthropic等提供部署前的非正式评估。创始人Beth Barnes之前在OpenAI研究对齐问题,“图灵三巨头”之一的本吉奥(Yoshua Bengio)是该机构顾问。

为什么从1个月算起?这家机构解释说,那是新员工入职后可以为公司创造经济价值的时间。当前,各种大模型的测试基准正在迅速饱和,更要命的是,它无法准确反映真实社会经济价值。

不满于此,METR提出了HCAST(人类校准自主软件任务)。这是一个包含189项机器学习工程、网络安全、软件工程和一般推理任务的基准测试集,分别由人类专家(拥有全球排名前100大学学位,具有5年以上相关专业经验)与智能体去执行。人类专家与智能体在相同的条件下工作,然后再比一比,人类完成这些任务需要多少时间,智能体完成这些任务的成功率有多高。HCAST的任务主要覆盖了数分钟到几小时的人类任务,为覆盖需要更短(对应早期大模型)与更长时间的任务,研究又引入了单步任务SWAA与长时任务RE-Bench。

结论是,人类专家耗时不到4分钟的任务,目前的智能体几乎100%都能成功;但是连人类专家都要耗时4个小时以上的,那么成功率就降到了10%以下。不过,智能体的进步也很显著。GPT-3时代的模型,在超过1分钟任务上全部失败;GPT-4能以50%的成功率完成4分钟的任务;Claude 3.7 Sonnet在相同的成功率下,把上限推高到了59分钟,但要提升到80%成功率,就只能完成15分钟左右的任务。

简言之,把它们放到真实世界,想要完全自主地完成多步骤长时序的现实任务,还不够稳定和好用。也就是说,至少在今年内,不能对智能体完成多步骤的任务抱有太高的预期。

前EleutherAI研究员Herbie Bradley大量试用了Operator和Anthropic的computer-use后,非常认同METR这种简单的衡量方法。他认为“t-AGI”(智能体能够自主可靠地完成本该由人类t时间内完成的任务)的扩展,是评估AGI经济效用的重要标准。

METR发现,如果以50%的成功率为基准,那么,过去6年来前沿大模型的t-AGI平均每7个月翻倍。遵循这个趋势,到2027年或2028年左右,智能体有50%的成功率完成人类本该1个月完成的任务。会有雇主去使用这样的智能体省下一名码农的月薪成本吗?

但是,现实情况会更复杂,且追求更高的成功率,如果要让智能体真正自主做到这一切,METR认为更可能是2031年前。

但是,即使这一天还没有来临,硅谷的码农也该瑟瑟发抖了。如果将谷歌L4级别的工程师的平均年薪,除以每年2000小时,则每小时薪酬约144美元。目前超过80%由智能体成功完成的任务,它们的推理成本低于人类专家的10%;它们在本该由人类专家在30秒内完成的任务上,性价比显著。幸亏目前的智能体,想要完成现实世界的任务,尤其是长时序任务,还离不开人类留在整个工作循环中。

(说明:对应1460个成功完成的任务,纵坐标代表任务的复杂度,即人类完成该任务的时长,横坐标代表任务由智能体完成任务的性价比,即模型成本与人类薪酬的比例。)

今年,卡帕西(Andrej Karpathy)就已经很享受了Vibe coding了,即一种依靠直觉和创意用自然语言调动代码的编程方式。他只需要偶尔花点时间通读一下他一时间没看懂的代码;有时候针对模型无法自己解决的Bug,动手修改一下。

但是,也许对智能体来说,更重要的是通过类似Vibe coding趋势,几乎削平了必须构筑于编程之上的其他领域的陡峭的初始学习曲线。谷歌最新的人形机器人通用模型Gemini Robotics-ER,也是通过现场写代码来完成物理世界任务的。

R1落后4个月

METR在论文中测试的模型,几乎都来自它的合作方OpenAI与Anthropic。不过,该机构也额外测试了基于第三方托管的DeepSeek的V3与R1等模型。研究也承认可能自己没有完全激发R1的最高性能。

在测试中,DeepSeek-R1能够以50%的成功率,完成人类专家需要35分钟才能完成的任务,略高于V3的33分钟的成绩,低于早于其发布的新版Claude 3.5 Sonnet和o1模型。从这个基准上看,R1大概处于全球最前沿的大模型在9月份时的水平,差距约为4个月。

该机构还发现,在引入思维链后,DeepSeek旗下基础模型V3到推理模型R1,对完成人类任务时长的提升,跨度不及OpenAI从GPT-4o到o1-preview。

也许要等R2发布的时候再试试,在追求性价比的同时,中国企业能否把t-AGI的提升速度也一起扩展了。

参考论文:

Measuring AI Ability to Complete Long Tasks

HCAST:Human-Calibrated Autonomy Software Tasks

推荐0

为您推荐

算法反馈
已显示全部内容

凤凰网科技官方微信

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载