编者按:人工智能的发展不是线性的,而是指数式的。指数式发展的特点是越往后越突破你的想象。本文是对最近AI领域发展情况的一次盘点,文章来自编译。
过去的一个月彻底改变了人工智能的现状,而最近一周,这个变化的速度更是显著加快。AI实验室推出了一系列新产品——部分具有革命性,部分属于渐进式改进——让人难以跟上节奏。我相信,这些变化当中有几项属于真正突破,它们将重塑人工智能的未来,也许也包括我们的未来。以下是当前的最新情况:
聪明的AI现已无处不在
去年年底,唯一公开可用的GPT-4/Gen2级别模型是GPT-4。但现如今,这类模型已经多达六到十个,其中部分模型甚至开放权重,任何人都可以免费使用或修改。美国这边有OpenAI的GPT-4o、Anthropic的Claude Sonnet 3.5、Google的Gemini 1.5、Meta的开源模型Llama 3.2、Elon Musk的Grok 2以及亚马逊的新Nova。中国也推出了三种似乎达到GPT-4级别的多语言开源模型,阿里巴巴的Qwen、R1的DeepSeek以及01.ai的Yi。欧洲的唯一玩家是法国的Mistral。各种名字的大模型背后传递的信息是,构建高性能人工智能并不需要OpenAI独有的“魔法配方”,而是需要计算机科学人才以及训练模型所需的芯片和算力。
实际上,GPT-4级别的人工智能发布时曾令人震惊,引发了对未来的广泛焦虑,但如今它已经可以运行在我的家用电脑上。Meta本月发布的最新小型模型Llama 3.3就具备了类似的性能,并且可以完全离线运行在我的游戏PC上。而微软的新型微型Phi 4同样达到了GPT-4级,且几乎在手机上就可运行,而其稍弱的前身Phi 3.5已经完全可以在手机上运行。可以说,这种“一定程度的智能”已经触手可及。
正如我之前讨论过那样,这些无处不在的人工智能现在开始支持智能体了。这些智能体可是能够追求自己目标的自治AI。之前我曾用早期智能体做过比价以及建筑工地的监控,你能看出这意味着什么。
非常智能的AI已经到来
这意味着,如果GPT-4级别的表现就是AI所能达到的最高水平的话,就已经足以让我们用五到十年时间的持续改变才能适应它们的能力。但目前并没有迹象表明AI的发展准备要踩刹车了。我们知道这一点,是因为过去一个月还有两项重要发布——Gen3模型的初次亮相(可看作GPT-5级的模型)以及o1模型的发布。这些模型能够在回答之前先“思考”,从而令其推理能力远超其他大语言模型。目前Gen3还处在早期阶段,因此本文只想重点谈谈o1。
我在o1-preview版本发布时曾经提到过,但后续推出更复杂的o1和o1-pro极大地提高了该模型的能力。这些模型在回答问题之前会花时间在背后“思考”——模仿人类的逻辑问题解决过程。这种方法被叫做测试时计算(test time compute),事实证明这是提升模型问题解决能力的关键。实际上,这些模型现在足够聪明,可以在许多领域的研究做出有意义的贡献,无论是大规模的还是小规模的。
举个有趣的例子,我读到一篇谈最近社交媒体恐慌的文章——一篇学术论文声称,黑色塑料餐具可能会令人中毒,因为这些东西部分是由回收电子垃圾制成。该文章提出,一种名为BDE-209的化合物可能会用极高的速度从这些餐具浸出,接近美国环保署规定的安全剂量临界值。许多人因此扔掉了自己的锅铲,但麦吉尔大学的Joe Schwarcz认为这个结论不合理,并发现了论文第七页的一个数学错误:作者将BDE-209的剂量错误地乘以了10倍——但论文作者以及同行评审都没注意到这个。我很好奇o1能否发现这个错误。于是,我用手机将PDF文本粘贴进去,然后键入:“仔细检查这篇论文里面的数学计算。”输入就只有这些,o1一下子就发现了这个错误(其他AI模型并没有发现)。
当模型不仅能够处理整篇学术论文,还能够理解“数学检查”这一任务的上下文,并且成功检查出问题时,这已经从根本上改变了AI的能力。实际上,我的实验以及其他人所做的类似尝试已经让人拟定了一项研究计划,试图了解o1发现科学文献存在错误的频率。目前我们还不知道o1能以多高的频率完成这样的壮举,但显然这值得进一步探索,因为这标志着能力迈向新的前沿。
即便是o1的早期版本preview model,也似乎代表了科学能力的一次飞跃。一篇由哈佛大学、斯坦福大学以及其他研究机构的研究人员撰写的医学工作论文就震撼了学界。论文得出结论:“o1-preview在鉴别诊断、诊断性临床推理和管理推理方面表现出了超人能力,在多个领域优于上一代的模型以及人类医生。”虽然这篇论文尚未经过同行评审,并不意味AI可以取代医生,但这个发现与上述结果共同表明,在不久的将来,不拿AI作为第二意见可能会是一种错误。
可能更重要的是,有越来越多的研究人员告诉我,o1,尤其是 o1-pro,正在生成新颖想法,解决其所在领域那些意想不到的问题。问题是,现在只有专家才能评估人工智能是错还是对。比方说,我非常聪明的沃顿商学院同事 Daniel Rock 让我向 o1-pro发起挑战:“让它用文献里面没有的证明来证明神经网络的通用函数逼近定理,要求不能 1)假设层无限宽以及2)超过 2 层。”
这种说法对吗?我不知道。这已经超出了我的专业范畴。丹尼尔等专家乍一看也无法判断它是否正确,但觉得这件事情足够有趣,值得研究。事实证明,该证明是有错误的(尽管与 o1-pro 进行更多交互可能会修复这些错误)。但这样的结果还是提供了一些激发进一步思考的新方法。正如丹尼尔指出那样,研究人员使用 o1 时不需要它做到正确才有用:“要求 o1 用创造性的方式完成证明其实是要求它成为研究同事了。这个模型不必做到证明正确才有用,它只需帮助我们成为更好的研究人员就行了。”
我们现在拥有的人工智能似乎能解决非常困难的博士级问题,或者至少可以作为研究人员的协同智能来有效解决这些问题了。当然,问题是,除非你自己是某个领域的博士,否则你其实并不知道这些答案正确与否,这给人工智能评估带来了一系列新挑战。需要进一步测试才能了解它能有多大用处,以及在哪些领域有用,但人工智能的这一新前沿能力仍值得关注。
人工智能会观察你并跟你交谈
AI语音模型已经推出几个月了,但最近一周,AI又新增了一项革命性的功能——视觉能力。现在,ChatGPT和Gemini都能够实时观看视频并通过语音同时与用户交互。比方说,我可以共享实时屏幕,让Gemini新的小型Gen3模型Gemini 2.0 Flash为我这篇文章的草稿提供反馈。
或者,其实你可以亲自上手免费试用。真的非常值得一试。Gemini 2.0 Flash还属于小型模型,内存有限,但体验过后你会逐渐理解它的潜力。这些能够通过视觉和语音这两种最常见的人类感觉与人类进行实时交互的模型,可以将AI从电脑屏幕里的对话框中解放出来,变成你身边的“同伴”。事实上,ChatGPT的高级语音模式也可以在手机上实现类似功能,这意味着这个能力已经被数百万用户广泛使用。随着AI越来越贴近我们的生活,其影响将十分深远而广泛。
AI 视频突然变得非常好了
过去一年,AI在图像生成方面已经表现得非常出色,许多模型甚至在我的笔记本电脑上就能生成与真实照片几乎无异的图像。这些模型的操作也变得更加直观了。比方说,输入“飞机上的水獭在用蓝牙”或“飞机上的水獭在用Wi-Fi”,它们都能正确生成相关图像。如果你想亲自尝试的话,不妨试试Google最近发布的Imagen 3,其ImageFX界面非常的简便易用。
不过,上周的真正突破来自AI文本转视频生成器。此前,中国公司的AI模型一直是视频生成领域最先进水平的代表,包括一些令人印象深刻的系统,如Kling,以及一些开源模型。但这种情况正在迅速改变。首先,OpenAI发布了强大的Sora工具,然后Google推出了更加强大的Veo 2视频生成器,颇有一种你追我赶交替领先的势头。
展示总是比讲述更好,所以请看一下这个 8 秒剪辑的合集(目前的极限,尽管它显然可以制作更长的电影)。我在每个剪辑中都提供了确切的提示,并且剪辑仅从 Veo 2 制作的第一组电影中选择(它一次创建四个剪辑),因此没有从许多示例中挑选。注意物体、阴影和反射的明显重量和重量,在保持发型和细节的情况下跨场景的一致性,以及场景与我要求的接近程度(如果你寻找的话,红色气球就在那里)。有错误,但现在乍一看很难发现它们(尽管它仍然在努力处理体操,这对视频模型来说非常困难)。真的令人印象深刻。
这一切意味着什么?
我会把更深入的反思留给后面的文章,但这里最重要的经验教训是,不管结果是好是坏,我们离人工智能发展的终点还很远。值得注意的不仅是个别突破——比方说AI能够检查数学论文、生成接近电影质量的视频剪辑,或者运行在家用游戏PC上——而是技术变革的速度和广度。一年前,GPT-4让人看到了未来的曙光。而如今,它已经可以运行在手机上,而更新的模型甚至能发现学术同行评审遗漏的错误。这种变革不是线性的进步——我们正在目睹人工智能以不均衡的方式迅速突破,甚至我们连评估其影响都变得困难起来。这表明,塑造这些技术对我们所在领域变革方式的机会就在当下,我们得趁局势尚未明朗开始介入,等到变革完成之后才去应对恐为时已晚。
译者:boxi。
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”