全文9,000 字,阅读约需21分钟
在最近的 OpenAI 论坛上,一场题为"The Future of Math with AI Reasoning"的虚拟活动吸引了学术界和科技界的广泛关注。UCLA 数学教授陶哲轩(Terry Tao)、OpenAI 高级副总裁 Mark Chen共同探讨了人工智能推理模型如何改变研究和问题解决的方式。
陶哲轩教授作为当代最具影响力的数学家之一,其研究领域横跨调和分析、偏微分方程、组合数学和数论。作为 2006 年菲尔兹奖得主,他自 2021 年起还担任总统科学与技术顾问委员会成员。在论坛中,陶教授提出了一个引人深思的观点:人类研究的未来可能会借鉴软件工程的协作模式。
"过去的软件开发可能依赖于单个英雄式程序员,这与当前所有人的工作方式类似,"陶教授解释道,"但现在的软件工程已经发展为一个包含项目经理、程序员、质量保证团队等多角色协作的模式。"他分享了自己参与的项目经验,展示了如何将理论数学、形式化证明和算法实现等不同专长的团队成员整合在一起,创造出更有效的研究模式。
Mark Chen 对此深有共鸣。作为 OpenAI 负责高级 AI 项目的领导者,他认为 AI 已经开始成为研究人员的得力助手。"AI 在模式识别方面表现出色,特别是在处理大量数据和筛选信息时,"Chen 表示,"它不仅能够帮助形成创新猜想,还能在证明策略制定和步骤验证方面提供有价值的建议。"
随着 AI 技术的进步,科学研究正在经历一次方法论的革新,从传统的个人探索模式向更加协作和多元的范式转变。
文稿整理
主持人James : 这真是我的荣幸,能和这样杰出的人物同台。对我个人而言,今晚能够与各位展开讨论是非常特别的荣幸。尽管这次活动标志着我们本年度论坛系列的结束,但它同时也是明年新主题的开始——我们将聚焦科学领域,以及我们的模型如何在安全且公平的前提下推动科学的加速发展。为了开场,我想先从一个问题开始,请 Terry 先回答,然后是 Mark:您现在正在研究的最有趣的问题是什么?为什么我们需要解决这些问题?
谈模型推动科学发展
陶哲轩: 嗯,好的,有很多技术性的数学问题我非常想解决。不过,就与这次会议更相关的内容而言,我非常感兴趣的是如何从头开始重塑数学,以及我们如何利用这些新工具,以前所未有的方式合作,进行规模空前的数学研究。我认为这可能是一个发现的新时代。目前,数学家往往一次专注于一个问题,花费数月时间解决后再继续下一个问题。而通过这些工具,我们或许能够同时扫描数百甚至数千个问题,并进行完全不同类型的数学研究。这种可能性让我感到非常兴奋。
Mark Chen: 过去一年里,我们的一个主要关注点是推理能力。自 GPT-4 发布以来,我们的重点有所转移。GPT-4 是一个非常智能的模型,掌握了大量的原始知识,但在某些方面却也很“笨”。它经常被简单的谜题绊住,并且过于依赖先验知识。如果它对某个谜题有一种既定的理解模式,就会在模式匹配中犯同样的错误。这些问题让我们意识到,模型在深度推理能力上存在不足。因此,我们一直在开发被称为 O 系列的模型。这些模型更像是“系统二”思考者,而不是“系统一”思考者。它们不再是快速直觉性地作出反应,而是花时间反思问题后再作答。此外,我们还关注两个关键研究方向:一是数据效率,即如何有效利用全球所有数据,包括非结构化数据;二是为用户创造直观且愉悦的体验。
主持人James : 是的,这确实很重要,尤其是关于人机交互的问题。在这方面,我想请 Terry 具体谈谈 O1 模型。不过在此之前,您刚才提到了新的数学形式。在多个场合,您提到过“工业规模的数学”和数学领域不同的合作方式。您能为我们详细解读一下吗?
陶哲轩: 当然。数学一直被认为是一项非常困难的活动,目前确实如此。一个主要原因是它依赖于一个人或少数几个人完成许多不同的任务,以达成复杂的目标。要在数学上取得进展,首先需要提出一个好的问题,然后找到解决问题的工具。接着,您需要学习相关的文献,尝试不同的论证,进行计算,检查论证是否正确。最后,还需要将结果写成论文,进行讲解,并申请研究经费。这些任务都需要不同的技能。
在其他行业中,我们已经实现了分工合作。比如在制作电影时,不会让一个人既当导演、又当演员、同时还负责剪辑和融资。然而,在数学中,我们一直没有找到方法将这些任务分离。但现在有了这些工具,原则上您可以进行协作:一个人负责设想愿景,AI 执行计算,另一个工具撰写论文。您不再需要一个人在所有方面都擅长。许多人因为觉得成为一名优秀数学家所需的任务清单过于庞大而感到望而却步。但有了这些工具,也许那些擅长数据模式识别的人可以专注于发现模式,并让 AI 验证模式是否存在;而另一些人则可以专注于一个更窄的任务或项目的一部分。
总之,这些工具让数学工作变得更加模块化,可以将一些任务交给 AI,一些任务交给人类,还有一些任务交给正式的证明助手或公众参与。类似于其他领域的“公民科学”,我们或许也可以在数学中引入业余爱好者的参与,比如业余天文学家发现彗星或业余生物学家收集蝴蝶的方式。
谈人机协作效率
主持人James : 因此,这里有很多潜力,我认为我们需要尝试许多方法,看看哪些能够奏效。Terry,我有一个简单的后续问题。我很好奇,撇开 AI 不谈,目前为止参与一个数学项目协作的人类数量上限是多少?或者,你认为这种协作是否有一个上限?
陶哲轩: 实际上,这个上限大概是 50-60 人。超过这个数量之后会变得非常困难,因为需要彼此检查工作,而且还需要把所有人聚集到一个地方等。尽管有一些参与者众多的项目,比如形式化证明的项目,这类项目已经是为数不多的我们知道如何通过众包和任务分解完成的数学任务。例如,在形式化证明中,一个大的证明会被形式化,这是一个可以运行在 GitHub 或类似平台上的过程,并且所有的贡献都会被验证,因为它们是用像 Lean 这样的形式化语言表达的。这类项目通常会有 20-30 名作者。Lean 有一个叫做 Mathlib 的项目,它是一个涵盖所有本科数学内容的库。尽管它从未被正式定义为一个研究项目,但技术上它可能有数百甚至上千的参与者。不过,这种大规模协作目前主要存在于形式化数学领域。
Mark Chen: 非常棒。我也想呼应对 Lean 项目的赞美,他们确实做了非常了不起的工作。我想我们今天的会议上可能也有一些 Lean 团队的成员在场。
主持人James : Terry,当你解释这些时,我感觉你的默认假设是人类仍然会分担任务,并了解整个过程,决定谁负责什么。那么我的第一个问题是,你认为数学家是否会因此产生不同的角色和专长?接着,我想问 Mark,你是否认为这些角色永远是由人类担任,还是可能出现 AI 模型(如 O 系列)自己分解问题的场景?
陶哲轩: 我认为软件工程是数学未来发展的一种模板。在过去,可能会有一个英雄般的程序员独自完成所有事情,就像数学家目前的工作方式一样。但现在,在软件工程中,我们有项目经理、程序员、质量保证团队等等。所以可以想象,数学也会朝这个方向发展。目前,我参与的一些项目是协作性质的,包含理论数学组件、形式化证明组件,以及运行各种代码算法的部分。这些项目已经开始朝着我预期的方向发展。比如,有些人不懂数学,但非常擅长形式化定理,对他们来说这就像解谜;有些人擅长使用 GitHub 和进行项目管理,确保所有后台工作顺利进行;还有些人专注于数据可视化等等。我们目前大部分仍是人类在完成这些工作,利用的是较传统的 AI 技术,比如证明助手或者 Python 代码,但我认为 AI 将非常自然地融入这种模式,一旦它变得足够强大。
Mark Chen: 这确实很有道理。我觉得现在我几乎已经把 AI 当成同事了。在很多情况下,有些我不擅长的事情可以交给 AI 去做。虽然我不是数学家,但就 AI 在数学问题上的潜力而言,我认为它的强项之一是模式识别,特别是在处理大量数据或需要筛选海量信息时。通过识别模式,它可以开始形成猜想。我认为这可能是 AI 的独特优势。此外,AI 可能在制定证明策略方面也有帮助。Terry,这让我想起我们上次讨论的一些内容。你提到模型在尝试解决一些玩具问题时,提出了一个生成函数的思路,虽然不是完美的,但在当时的情境下确实并非糟糕的建议。另外,AI 还可以用于验证步骤,比如,当你觉得某个步骤是正确的,但想再找一个“第三方”核对时。AI 或许也能高效生成反例,在需要探索某个定理可能错误的情况下,这可能比人类更高效。
谈数学与大模型关系
主持人James : 这确实很有道理。你们的回答中都提到了定理证明器和更广泛的形式化工具的作用。那么,你们认为形式化工具是否是数学与大模型或其他先进技术之间的必要中间层?
陶哲轩: 大体上是的。证明必须是正确的,而数学证明的特点是,如果一个 100 步的证明中有一步出错,那么整个证明可能就会崩塌。AI 当然会犯错。在某些数学领域中,容错率是可以接受的,比如模式发现或猜想生成。在这种情况下,AI 的正确率即使只有 50%,只要有其他方法来验证它的输出,也仍然是有价值的。特别是在生成论证时,强制 AI 以 Lean 等形式化语言输出是一个非常自然的选择。如果输出通过编译,那很好;如果不通过,系统会返回错误信息,模型则可以更新答案。目前,这种方法可以用来证明一些简短的证明,比如大学生作业水平的证明。但尚未达到可以直接回答高层次数学问题并输出完整长篇证明的程度。尽管像 AlphaProof 在耗费三天算力后可以完成,但这并不具有可扩展性。对于一些容错率较高的问题,可能不需要形式化证明助手。但对于任何复杂的问题,如果一个错误可能传播开来,那么形式化证明助手几乎是不可或缺的。
Mark Chen: 我明白。在 OpenAI 的发展过程中,我们曾不同时期对形式化数学投入过多或少的关注。我认为现在我们做这方面的工作稍微少一些,主要是因为我们希望探索更广泛的推理能力。我们希望计算机科学中的推理方法,能够与数学领域中学习到的推理方式有一定的相似性。当然,我完全理解形式化数学的优势。
主持人James : 我想回到刚才提到的定理证明和数学 AI 的架构问题,并看看这是否也适用于其他科学领域。不过,在这之前我想问一个问题:在训练过程中,有很多错误的解题方式可能没有被纳入训练模型,因为数学家通常不会发表错误的答案,这种情况在更广泛的科学领域也存在。你们认为这种文化规范是否会产生重大影响?是否应该推动人们发表错误答案?
陶哲轩: 我认为这是个好主意,但确实很难鼓励这种行为。人们通常不喜欢承认自己的错误。不过,这些确实可能成为非常宝贵的训练数据。比如,我在上课时,最有效的课往往是那些我准备了一个证明但在课堂上出错的情况。当时,我需要在课堂上实时修正,学生可以看到我尝试各种方法,比如改变假设、验证例子等。之后,我收到反馈说,这些课对学生最有价值,因为他们看到了我的错误和修正过程。这些数据目前几乎是缺失的。我认为许多领域的专家都是在几十年的错误中建立起自己的专业知识的,通过“负面空间”学习到了什么是不可行的。随着我们逐渐进入一个更形式化的环境,比如现在我们会在证明完成后进行形式化。但我认为未来我们可能会边思考边与 AI 互动,同时实时形式化我们的推理步骤。即使这些步骤有时行不通,我们也可以回溯修正,从而自然地生成目前缺失的数据。
主持人James : 许多数学家提到过定理的美感,以及当一切都契合并能优雅表达时的“顿悟”瞬间。你觉得使用这些工具是否可能会让我们失去这种认知过程?
陶哲轩: 类似的情况在计算器普及时也曾出现过。当时人们担心,既然我们不再需要手算,人们会失去对数字的直觉感知。从某种程度上说,这是真的。我想,一百年前的数学家在直接计算中可能比我们更有数字感知能力。但通过使用计算器,我们也获得了不同类型的数字感知。我认为,这会产生一种新的美学标准。有些计算机生成的证明可能会非常优雅,并以一种不同的方式令人惊叹。不过,我并不认为 AI 的范式会在几十年内完全取代数学家的工作。数学家们往往比较慢热,比如我们至今仍在使用粉笔和黑板(笑)。将来仍然会有一部分数学家将 AI 生成的数学转化为更加“人性化”的形式,我认为这种事情在未来会很常见。
主持人James : Mark,当你听到 Terry 的回答时,你是否也会思考如何不仅提升推理的质量和准确性,同时也让人类能够更好地利用这些输出?
Mark Chen: 是的,我认为这就像强化学习(RL)一样,让模型通过错误学习。这个观点非常契合我的看法。我也认为,这正是发展强大推理能力的方法。仅仅通过提供大量正确推理的例子并不足够,因为在数学推理中存在大量的“负面空间”。我很乐观地认为,模型未来会变得更加有用,尤其是它们的影响力。我觉得这不仅不会让人们失去美学或直觉,反而可能会促使我们开发新的抽象层次,以及新的抽象和直觉。
谈模型对教育影响
主持人James : 这是一个很有趣的讨论。在我自己的生物学领域中,人们通常假设这些模型会发现跨越不同领域的模式,并揭示我们未曾注意到的潜在统一性。但在数学和物理等领域,精炼的重点更在于活动的方式。我想知道,你们是否认为这会对数学教育产生影响,特别是如何支持那些从事前沿数学研究的学生?
陶哲轩: 当然,学生们已经在使用大型语言模型,最明显的是用来完成作业。不过,他们也在用它来获得对某个主题的“第二视角”。教育工作者也在探索如何将大型语言模型融入教学中。一种越来越普遍的方法是提出一个数学问题,展示 GPT 的回答,并指出这个回答是错误的,让学生批判性地分析它,或者与 AI 进行对话,教它修正答案。还有一个例子是,某个课堂项目中,老师给出了一份练习题,要求学生通过提示工程和数据分析训练 AI,以生成模拟的期末考试,并高效地教会 AI 解决这些问题。他们将学生分成一组负责提示工程,另一组负责基准测试等等。但这也迫使他们,例如,为了生成模拟考试,他们确实需要理解课程内容。因此,这实际上是一个深入学习课程内容和使用 AI 工具的借口。我们会找到创新的方法来结合这两者。
主持人James : 我猜,有些人会提出担忧,你认为过度依赖 AI 工具是否会导致数学技能的退化,或者洞察力的丧失?
陶哲轩: 这将是一个转变。我认为我们会减少使用某些技能,但会更多地发展其他技能。这里有一个关于国际象棋的类比。现在,国际象棋基本上是一个已解决的问题,但人们仍然大量下棋。但他们练习国际象棋的方式现在有所不同。他们尝试不同的走法,然后询问棋局引擎这是否是一个好走法。例如,国际象棋理论正在蓬勃发展,很多关于控制棋盘哪个部分的百年格言,正在被人类通过询问棋局引擎来重新评估。这是一种获得棋感的不同方式,而不是传统的下大量的棋局和阅读大量的教科书。所以,这将是一个转变,是一种权衡,但我认为总体上是积极的。
Mark Chen: 人们也经常问我,他们应该如何适应 AI 的出现。我仍然认为,没有必要突然放弃学习任何特定的学科。我认为,人们应该拥抱 AI,看看它如何使他们更高效。具体到数学,AI 可以帮助你完成大量繁琐的计算,如果是一些你已经非常熟悉的例行性任务,你可以让模型来执行这些操作。我仍然认为,对学科的深刻理解非常重要。即使在今天的机器学习领域,也是那些对数学或系统有深刻理解的人带来了最大的变化。我认为这将继续成为一个非常重要的杠杆。此外,专注于抽象层次也是重要的。我认为人类在数学的核心上有一种独特的美学。因为其他人类在评判这种美学,模型在定义问题和品味方面可能更难以模拟。当然,数学本身就是一种很好的技能,非常具有可转移性。它教会你稳健的推理能力,我认为数学家通常都非常适应环境。所以,绝对没有理由不加大对数学的投入。
谈模型超越人类
主持人James : Mark,你提到数学的美学,这是一个有趣的观点。我们可能会有点抽象化,但我想说,我们对数学的理解方式可能与我们作为人类体验现实的方式有某种联系。如果模型能够进行非常复杂的数学,我们可能会达到一个阶段,超出了人类验证或理解的能力。你们认为这种未来很快会到来吗?如果是,你们会如何应对?
陶哲轩: 嗯,实际上,已经有数学家产生了巨大的证明,没有任何一个人能够完全理解。我们已经大量使用计算机辅助。有些证明需要巨大的证明证书,可能达到太字节级别,因为涉及到大量的 SAT 求解计算或大型数值建模。还有一些证明建立在文献中数百篇论文的基础上,我们将之前的结果视为黑盒,没有任何人能够理解所有内容。所以,在某种程度上,我们已经习惯了这种情况。数学家能够应对,因为我们有抽象的语言,我们可以将复杂的证明模块化。你只需要理解其中的一部分,然后信任计算机或他人理解了其他部分,一切就会顺利进行。这种情况会继续发生。我们将有大型复杂的论证,其中一部分可能是 AI 生成的,希望也经过形式验证。我认为这是一种趋势,只是加速了已经发生的趋势。我不认为这是一个真正的阶段性变化。
Mark Chen: 我的很多担忧也类似。你可能会有一些错误被传播,或者他人基于错误的结果继续构建,最终建立在有缺陷的数学之上,特别是如果新计算机生成的洞察量增加的话。在 OpenAI,我们非常关注一个更普遍的问题,即可扩展的监督。也就是说,当模型花费大量时间思考,得出一些基础性的洞察时,你如何知道模型没有犯错?你如何信任它?这在根本上是一个非常现实的问题,可能在几年前还显得相当理论化,但我认为今天的模型确实有能力解决非常困难的问题。所以,我们如何验证并信任模型给出的正确答案?数学是我们有机会解决这个问题的地方,因为我们有形式验证,而且可以以自动化的方式完成。
主持人James : 确实如此,你会希望那里的进展能够最终解锁所有其他科学领域的进展。我们可以找到一种方法,从数学证明推导到物理、化学等等。今天在场的有很多人正在实际从事数学教育或相关工作我有几个非常实际的问题。或许这不是因为 AI 或相关工具而导致的根本性变化,但数学实践中可能会有一些文化元素发生改变。例如,数学竞赛是其中一个独特的部分。我知道你不久前去了布里斯托尔,正是围绕这个主题的活动。你认为数学的生态系统会如何调整以适应大模型(LLMs)?如果会调整,那么具体会怎么变化?
陶哲轩: 会的,但确切如何变化很难预测。我认为会出现一些现在并不受欢迎的新数学类型,因为它们目前在技术上是不可行的。特别是实验数学,现在它仅占据很小的份额,大约 95% 的数学还是理论性的。这在科学领域中是很不寻常的,因为其他科学通常在实验与理论之间有一个平衡。但在数学中,实验很难实现。你需要非常擅长编程,任务还必须足够简单,以便可以用常规的软件来自动化完成,而这需要数学家有一定的编程技能。但是,有了 AI,你可以进行更复杂的探索。例如,以前你可能研究一个微分方程,而现在你可以让 AI 分析这个微分方程,并要求它对列表中的另外 500 个方程重复相同的分析。这是目前传统工具无法自动化完成的,因为你需要软件能够理解问题。
我认为数学的类型将会发生变化。已经有一种更倾向于协作的趋势,而 AI 会加速这种趋势。不过,我认为至少在未来的十年或二十年内,我们仍然会撰写论文、审稿和教学等等。我认为数学工作将逐步使用越来越多的 AI,就像我们已经在其他方面越来越多地使用计算机辅助工具一样。
Mark Chen: 关于竞赛这一点,我想我可以更多地谈谈编程竞赛。我不认为它们会有太多根本性的变化。至少在我认识的大多数参与者中,他们觉得这是一件非常有趣的事情,甚至超越了技能的获得。当然,作弊可能会成为一个问题,这是一个主要的挑战。
主持人James : 作弊确实是一个值得担忧的问题。不过,我认为还有一种不那么故意、不涉及规则破坏的元素,那就是归属问题。在一个 LLMs 可能承担大部分形式化工作,甚至通过组合方法产生新颖想法的世界中,我们是否可能直接将突破归因于 LLMs 本身?如果是,这会意味着什么?
陶哲轩: 这是我们需要面对的一个重大问题。实际上,科学领域的论文作者模型已经很复杂,通常有一个主要作者和一群次要作者。而数学家目前还没有这样做,我们仍然按照姓氏字母顺序排列作者,基本上忽略了谁做了什么,仅仅表明大家贡献相等。我认为未来我们需要对论文中的归属更加精确。在科学领域的论文中已经有一种趋势,就是明确作者贡献的部分,写清楚每个人做了什么。如果在 GitHub 上协作,你也可以通过 GitHub 提交记录获取一些数据。或许未来会有自动化的方法来分析数据并总结出每个人的贡献。一旦一半的提交是由 AI 完成的,你是否将其列为共同作者,还是至少在致谢中提及?我们目前还没有形成相关规范。未来会有一些试探性的案例和争议,最终我们会找到一个适合大家的解决方案,但现在我也没有答案。
Mark Chen: 我认为还有一个相关但风格不同的问题,那就是访问权限。如果模型继续贡献大量的证明部分,那么那些拥有更多计算资源的人是否在数学研究中会占据更大的优势?这是一个需要深入思考的问题,但目前我还没有明确的解决思路。
谈生成知识的产权
主持人James : 这确实是一个难题。我们已经在更具创造性的领域中看到了关于归属和所有权的问题。随着 AI 在科学领域的深入应用,知识产权和研发周期的思考将会变得更加有趣。回到应用数学或更广泛的科学实际用途。对于那些本身不是数学家的人来说,我们谈论了很多数学活动的变化及其重要性。如果我们暂时不考虑实现这一目标的具体机制,假设基础数学得到了显著加速,那么这会为社会的其他部分带来什么?这种加速会解锁什么样的潜力?
陶哲轩: 我认为,这可能会增加公众对数学的参与。例如,你可以想象人们就某些问题进行争论,比如地球是否是圆的。虽然这听起来令人惊讶,但这样的争论仍然存在。如果有 AI 工具,你可以开始构建模型,并说:“假设地球是平的,那么天空会是什么样子?”目前,你需要掌握相当多的数学知识才能理解这些变化的程度。但未来,你可以想象使用这些工具来创建一个可视化工具,让人们直观地看到这种假设下宇宙会是什么样子。我认为这会将数学与许多目前感到被排除在外的人联系起来。
主持人James : 由于需要的技术技能非常复杂,你认为我们是否需要先更擅长这种类型的数学,才能在其他科学应用中更好地使用 AI,比如工程或物理?这是加速这些领域的前提条件吗?Mark,我也想问你是否认为这是必要的第一步?
陶哲轩: 嗯,科学中有太多内容已经建立在数学的基础上。如果你不理解数学,你就无法准确建模。特别是在底层,如果你想训练 AI,就需要大量的数学知识。不过,也有可能我们会进入一个新的世界,在这个世界中,你可以是一个生物学家或其他领域的研究者,你可以让 AI 进行统计研究或其他分析,而你并不需要知道具体的参数细节。如果 AI 足够可靠,它可以为你完成所有数学部分。因此,AI 有可能让数学成为一种可选的工具,而不是现在科学研究中不可或缺的一部分。所以,这两种情况都有可能出现。
Mark Chen: 我认为 Terry 对加速数学进展的影响及其意义的见解是最值得信任的。从研究人员的角度来说,尤其是代表许多在座研究者的想法,我认为我们模型最令人兴奋的应用是加速科学发展。我们的目标是提供一种通用工具,让专家能够在日常工作中使用它来加速研究进程。在其他科学领域,比如材料科学和医疗保健,我们已经看到人们在使用推理模型,并且他们提供了非常积极的反馈。他们觉得这些模型就像一个本科生助理,可以完成一些任务,提供相当连贯的分析结果。正如 Terry 所说,很多人会提出一个情境问题,比如“在这种情况下,你能否进行一些计算,看看结果会是什么样?”在这些情况下,模型被证明非常有效。
主持人James : 然而,很快我们可能会进入一个世界,在这个世界中,只有少数人能够验证模型给出的答案是否正确。也许结合定理证明和越来越复杂的数学 LLM 是解决这一问题的唯一方法。如果我们需要一个可扩展的验证解决方案,那么形式化数学可能必须处于顶层,其它一切都从它派生出来。鉴于这是一个潜在的未来,以及我们讨论过的一些主题,Terry,你对年轻的数学家有什么建议?他们应该关注哪些问题?
陶哲轩: 我的建议是保持灵活性。数学正在变得更加技术化和协作化。也许在 50 年前,你可以专注于一个非常小的数学分支,几乎不用与其他数学家互动就能取得成就。但现在这种方式几乎不可行了。数学是一个更大的生态系统的一部分,这是一件好事。有了 AI,它解锁了比以前更广泛的协作可能性。你甚至可以与那些你完全没有专业知识的领域的科学家合作,而 AI 可以帮助你达到基本水平,充当科学家之间的“通用翻译器”。所以,要保持开放的心态,同时也要认识到这些工具的局限性。你不能盲目使用这些工具,你仍然需要培养自己的技能来监督 AI。AI 不是一根魔法棒。
主持人James : Mark,基于目前的趋势,你会建议学生现在培养哪些技能,以便他们能够随着时间的推移更好地利用这些模型?
Mark Chen: 老实说,我们仍然需要在技术领域有技术专家,他们能够与这些工具很好地协同工作。我非常喜欢保持灵活性的建议。就 AI 研究而言,我认为对于各种领域的人来说,至少理解神经网络的基本原理是非常有帮助的,比如它们是如何训练的、它们的动态是什么样的、它们的局限性在哪里。我认为,越多的人能够尝试这些工具并了解它们如何加速工作,他们就会越有效。我确实认为 AI 工具会成为一种效率倍增器,也许在几年后会显得尤为明显。那些能够有效利用 AI 工具的人总体上会比完全忽视 AI 的人更加高效。
谈模型发展速度
主持人James : 这确实非常有共鸣。我想,现在的问题可能已经不再是“它们是否有用”,而是“它们革命的速度有多快”。Terry,你一直站在技术发展的内部,观察这些模型在不同时间点的改进。我听说最近模型在 IMO(国际数学奥林匹克竞赛)上的表现甚至达到银牌水平,尽管其中有一些针对性的调整。你对这一进展的速度感到惊讶吗?
陶哲轩: 这种进展速度既超出了我的预期,但在某些方面也低于我的预期。这似乎适用于任何可以生成类似任务数据的任务。例如,IMO(国际数学奥林匹克)项目,DeepMind 实际上生成了许多合成证明,其中也包括很多失败的证明。这实际上是他们的一个“秘密”。因此,许多我原本以为几年内无法完成的任务现在已经完成了。另一方面,每当你超出数据覆盖的范围,比如进入一个研究级别的问题时,这些问题可能只有世界上 10 个人真正认真思考过。这时,AI 工具的作用仍然非常有限。我现在正在进行一个项目,我们并不是在证明一个大问题,而是尝试证明大约 2000 万个小型数学问题。我原本认为这是 AI 的理想任务,因为 AI 能够处理一定比例的问题。
但事实证明,这些问题中大约 99% 可以通过传统的计算性暴力方法解决,而剩下 1% 则非常困难,需要大量人工干预。现有的 AI 模型能够解决那 99% 中的大部分简单问题,但对于真正有挑战性的核心问题,贡献仍然有限。这可能只是目前技术状态的体现。所以,我认为在这些研究级别的问题上,AI 自主解决这些问题可能还需要很多重大突破。我可以举一个相关的例子来说明这种情况——既让人印象深刻又还有很大的进步空间。今年,我们也带着 O1 模型参与了国际信息学奥林匹克(IOI)。从一方面来看,模型确实需要为每个问题生成大量样本(大约 10,000 个样本)才能达到类似金牌水平的表现。这听起来很多,但同时我觉得它能做到这一点已经非常不可思议了。其中一些问题非常“反模式化”,但模型仍能应对一部分问题。这个能力让我非常兴奋。
主持人James : 有趣的是,当你觉得几乎像“作弊”一样重新定义问题并解决它时,可能会觉得有些不满足。但从更广的视角看,我想知道科学进步有多少实际上是由许多这样的“小伎俩”叠加起来的,最终形成一种看似非常聪明的范式转变。这让我想到一个问题,也许我们正在教模型以特定的方式推理,这种推理类别在某些类型的问题上表现良好。那么,我们是否认为会出现一个能够同时处理多种不同类型推理的模型,还是会有单独的模型专注于不同类型的推理并最终协作?
Mark Chen: 我认为有一个模型能够跨多个领域进行推理是一件很美好的事情。AI 开发中有一个重要的理念是“简单性”,我认为这一点非常关键。当然,我们也可以设计一种结构,让多个 AI 以特定方式协作,比如你是这个数学项目的项目经理,你是证明撰写者,你是负责检查 10,000 个案例的人。这是一种非常有趣的范式,但我认为目前最简单有效的方式仍然是单一模型来处理。
陶哲轩: AI 在解决问题时提供了一种非常互补的方法,也是一种非常数据驱动的方法。正如你所提到的,在某些任务上,AI 的表现实际上比人类更好。我们正在学习的是,某些任务的难度认知需要被重新校准,因为我们以前并没有尝试用数据驱动的方法解决某些问题类别。但也确实有些问题是本质上很难的。数学中甚至有些问题是不可判定的,无论有多少数据都无法解决,我们甚至可以证明这些问题无法被证明。
因此,如果你希望 AI 真正像人类那样解决数学问题,那么它需要能够在数据稀缺的环境中推理。在这种环境中,你可能只知道一个新数学对象的五六个性质和少量例子,可能还有一个与已知数学对象的模糊类比。AI 需要从非常少的数据中推断出接下来该怎么做。而这恰恰是当前 AI 不擅长的事情。强迫 AI 去做这些可能是用错了工具,因为这是人类擅长且高效的事情。相反,AI 在暴力检查、案例分析和模式发现方面表现更好,而这些是人类不太擅长的部分。我认为,把智能看作一种单一维度的量化标准,并比较“AI 和人类谁更好”,可能是一个错误的思维方式。我们应该将它们视为互补的。
主持人James : 我们接近结束时间了,也许用一个总结性的问题来结束这场对话。假设你们两位明天都被任命为大学副校长,拥有一定的预算。Terry,你将为数学系建立什么样的基础设施?Mark,你可能会为更广泛的科学系做些什么?你们会如何利用这些新技术?
陶哲轩: 这是个好问题。我可以想象设置一些集中的计算资源来运行本地模型,让用户可以自行调整和优化。这很重要,但也有难度,因为技术变化得非常快,现在投资于任何特定的硬件或软件可能在几年后就不那么重要了。我认为我们需要一个场所,将来自不同学科的人聚集在一起,探索如何一起使用这些技术。我们已经在开发很多技术中心类型的项目,但我认为这需要是非常自由的形式,因为技术变化太不可预测了。最重要的是,需要让不同部门互相沟通,寻找协同的机会。
Mark Chen: 我给个简短的答案:我认为 OpenAI 正在做正确的事情——建造一台非常强大的计算机,研究如何将计算机转化为智能。这是一个简洁的答案,但我想 Sam Altman会为此感到骄傲。
主持人James : 非常感谢你们抽出时间来与我们对话。
3秒互动陶哲轩教授说:AI将改变整个行业的工作方式就像软件开发从"独立英雄"转向团队协作善于与不同领域的人合作能将复杂任务拆解并高效分配懂得如何让AI成为得力助手