科技 > 人工智能 > 正文

AI教母李飞飞最新访谈：AI的下一个前沿不是语言，而是空间智能

Z potentials

2026年02月12日 10:25:38

图片来源：Fortt Knox

Z Highlights：

真正重要的是，整个人类社会、整个全球人口都能参与到AI当中，因为这是一项文明级别的技术。

AI是新一代的计算方式。这意味着：任何依赖芯片、依赖计算的设备、系统或场景，最终都会依赖AI计算。

空间感知智能（spatial perceptual intelligence）是智能的关键支点。我们日常生活中的绝大多数行为，以及整个人类文明中的工作，都依赖于空间、感知与具身智能。

李飞飞曾是Stanford Human-Centered AI Institute的创始主任，如今是World Lab的联合创始人兼首席执行官，在空间智能领域引领创新。本次访谈是她2月4日在Fortt Knox节目上，与主持人Jon Fortt关于AI发展及公司最新情况的探讨。

AI是一种文明级技术，不能只由“少数人”塑造

Jon Fortt：李飞飞博士，感谢你接受《Fortt Knox》和CNBC的访谈，也感谢你抽出时间。人们称你为“AI教母”，因为你在塑造今天商业世界正在进入的这一现实中，做了大量奠基性的工作。事情的发展，和你当初预想的一样吗？

李飞飞：是，也不是。

首先，没有任何一个人可以“独占”一个学科。我们今天所处的现代AI这场巨大变革，是几代科学家和技术人员共同努力的结果。对于我们这些在这个领域已经深耕很久的人来说，我们当然一直相信AI的力量，也相信这门科学所能达到的高度。它是一种文明级别的技术。

但我必须说，过去——我可以说近十年，尤其是最近这几年——AI发展的速度，真的超出了我们很多人最狂野的想象。看到整个产业全面拥抱AI，同时整个社会也从各种不同的角度、不同的维度，带着非常强烈的情绪在讨论AI，这种感觉至今仍然有点不真实。但与此同时，它也让我感受到一种沉甸甸的责任。

Jon Fortt：你做了大量工作，来确保在AI的开发过程中，有更广泛的人群和视角能够参与其中，也能获得使用AI的机会。比如你曾多次谈到女性在AI领域中的角色。我想请你帮我们勾勒一下，你眼中“利害关系”究竟在哪里。

因为过去，我们讨论的是文学作品中不同视角的代表性，讨论的是媒体中的多元表达。但现在，我们几乎是在直接构建世界的版本，而这些版本将会反过来影响现实世界如何运转。为什么让多种多样的声音参与其中如此重要？

李飞飞：这不仅仅是“多一些不同的声音”这么简单。真正重要的是，整个人类社会、整个全球人口都能参与到AI当中，因为这是一项文明级别的技术。无论我们谈的是医疗健康、农业、教育的变革，还是机器人、能源与可持续发展，我们生活的每一个方面、工作的每一个方面，都会受到这项技术的影响。

人们经常问我：什么是AI？该如何理解它的影响范围和覆盖面？我常用的一个例子——其实也不完全是类比——是去想一想“芯片”可以存在于哪里。我们常常把芯片想象成那种体量很大、能耗很高的东西。但事实并非如此。现在几乎每一个灯泡里都有一颗非常小的芯片。你的冰箱里有芯片。汽车里有芯片。飞机里则有大量的芯片。只要有芯片的地方——从最微小的芯片到大型芯片——就有计算能力。因为芯片是计算的硬件基础。

而AI是新一代的计算方式。这意味着：任何依赖芯片、依赖计算的设备、系统或场景，最终都会依赖AI计算。所以你就能理解，这项技术的影响有多么深远。因此，它的“利害关系”就是——一切。当然，它会分阶段到来，但在这个时间点上，我们的学界、我们的社会，必须理解这项技术的深远意义。

Jon Fortt：我最近思考这个问题的一个角度是这样的。几个月前，也就是去年夏天，我有机会去曼谷参加CNBC举办的一场活动。在那里，我见到了我一位高中时期的老朋友——Kasimatharn Pippachai。他当时正在SCB10X工作，参与一个叫Typhoon的项目。这个项目的目标，是构建原生泰语的AI模型，而不是依赖英语、普通话等等其他语言。在那次拜访之后，在和我这位老朋友聊完他们正在做的事情之后，我开始用一种完全不同的方式去思考“本土化AI”的意义。

如果AI真正理解你的语言、你的文化、你的生活方式，那会怎样？而如果它不理解，如果你根本没有参与到这个系统的构建中来——谁会被包括进来？谁又会被排除在外？关于语言与文化如何深刻影响AI的理解方式，以及如果这些因素没有被纳入设计中，哪些人可能会被系统性地忽视——我们对这些问题的讨论，是否已经足够多了？

李飞飞：是的，我确实经常在世界各地旅行，与来自各行各业的人交流，包括欧洲、APEC地区以及美洲各国的政府与机构。我认为，人们、国家以及不同区域都非常清楚本土化AI的必要性。

我们现在的讨论重点常常放在语言模型上，这当然非常重要。你刚才举的例子，本身就是一个语言模型的案例。但AI并不只等同于语言模型。即便我们只聚焦在语言模型这一点上，本土化AI对人们来说也是至关重要的。不同地区、不同背景的人，拥有不同的文化、语境、共同经验以及情境细微差别。无论是艺术家、制造业从业者，还是其他任何行业的人，这些差异都必须被AI理解和尊重。

而且我认为，推动这件事的不只是“自上而下”的政策意图，并不是因为我们觉得“应该这么做”。真正的驱动力来自市场，来自人们本身的需求。我看到来自很多地区、很多政府，都对构建本土化AI表现出非常健康、积极的兴趣。

语言模型不是终点，空间智能是AI下一前沿

Jon Fortt：你提到AI不只是语言，这是一个很好的过渡，引向World Labs。你关注的不仅仅是文本提示和回复，而是沉浸式的、受物理规律影响的三维交互。我想这其中会涉及材质、触感，甚至在某个阶段，可能还能做烹饪模拟之类的事情。你认为在未来五年、十年，这样的技术会带来什么样的能力？你会把它和你多年前在图像领域所做的工作，做怎样的类比？

李飞飞：我的职业生涯是从计算机视觉开始的，它是AI的一个子领域。就像我一些同事是从自然语言处理起步一样，最终自然语言处理与AI的其他分支共同推动了GPT这样的技术出现。

在整个职业生涯中一直从事视觉AI研究，让我深刻意识到：空间感知智能（spatial perceptual intelligence）是智能的关键支点。

从进化的角度、从人类自身的角度来看，我们并不是只靠“说话”来生活的。我们早上醒来，会拥抱自己的孩子。会给他们做早餐。会开车送他们去上学。我们自己去上班。点一杯咖啡，并且知道该如何端起它、喝下它。

我们日常生活中的绝大多数行为，以及整个人类文明中的工作，都依赖于空间、感知与具身智能。因此，在语言模型之外，AI的下一章、下一个前沿，正是空间智能。这也是为什么我们在不到两年前创立了World Labs。我们专注于打造下一代前沿模型，让AI能够推理、理解、交互，并生成三维、四维的世界。这些能力将赋能大量应用场景，包括：模拟、机器人、创意产业、设计、教育、医疗健康、制造业，以及更多横向扩展的空间智能应用领域。

Jon Fortt：因为这在某种程度上就相当于“图像捕捉”的进阶版本，它可以教会系统理解事物是如何运动的、相互碰撞时会发生什么、是否会碎裂，或者是否具有韧性。这些东西，单靠语言是没法完整描述的，对吗？

李飞飞：是的，确实无法做到。

首先，这已经不只是“用图像来进行推理”那么简单了，因为那仍然是一种相对被动的方式。而通过世界建模（world modeling）与空间智能，AI可以变得具有主体性（agentic）。它可以被计算、被规划，能够为具身智能体（embodied agents）提供更主动的能力。

就像我刚才举的例子，比如说你在做一顿饭，哪怕只是做一份很简单的意大利面。你当然可以用语言来描述这15分钟或20分钟的过程，但那仍然是一种高度有损的信息表达。比如你是怎么调酱汁的，你是如何把意面放进水里的，意面在水里发生了什么变化——这些细微之处，几乎不可能只用语言来准确描述。

而现实世界中的大量物理过程，不管是由人类发起的，还是人类与非人类系统之间的交互，本质上都超出了语言本身所能承载的范围。

Jon Fortt：最后一个问题。我知道你今天还有很多事情要做、很多人要见，非常感谢你抽出时间。你们在World Labs所做的这些事情，有一个应用场景很自然地会让人想到——那就是游戏产业。这里既有巨大的商业价值，也有创新空间和团队协作的可能性。我们应该在多大程度上期待，你们的这些工作会体现在更快、更高效的游戏开发中，并以此作为一种扩散影响力的方式？

李飞飞：是的，你说得完全对。游戏和互动式体验，确实是我们非常兴奋的一个市场方向。就在去年，大约两个月前——现在还只是二月初——我们发布了自己的第一个模型，以及一个名为Marble（World Labs出品）的产品原型。已经有非常多的游戏开发者在使用这些工具，玩得很开心，也不断向我们展示他们正在制作的作品。当然，目前这些还不是3A级别的大型游戏，而是体量更小的项目，但这本身就已经让我们非常兴奋。因为这意味着，我们已经开始真正赋能游戏开发者的创造力与创新能力。

Jon Fortt：非常期待接下来会发生什么。李飞飞博士，感谢你接受我的采访。

李飞飞：谢谢你，Jon。

AI教母李飞飞最新访谈：AI的下一个前沿不是语言，而是空间智能

亲爱的凤凰网用户:

第三方浏览器推荐: