AI教母李飞飞最新访谈:AI的下一个前沿不是语言,而是空间智能
科技
科技 > 人工智能 > 正文

AI教母李飞飞最新访谈:AI的下一个前沿不是语言,而是空间智能

图片来源:Fortt Knox

Z Highlights:

真正重要的是,整个人类社会、整个全球人口都能参与到AI当中,因为这是一项文明级别的技术

AI是新一代的计算方式。这意味着:任何依赖芯片、依赖计算的设备、系统或场景,最终都会依赖AI计算

空间感知智能(spatial perceptual intelligence)是智能的关键支点。我们日常生活中的绝大多数行为,以及整个人类文明中的工作,都依赖于空间、感知与具身智能。

李飞飞曾是Stanford Human-Centered AI Institute的创始主任,如今是World Lab的联合创始人兼首席执行官,在空间智能领域引领创新。本次访谈是她2月4日在Fortt Knox节目上,与主持人Jon Fortt关于AI发展及公司最新情况的探讨。

AI是一种文明级技术,不能只由“少数人”塑造

Jon Fortt:李飞飞博士,感谢你接受《Fortt Knox》和CNBC的访谈,也感谢你抽出时间。人们称你为“AI教母”,因为你在塑造今天商业世界正在进入的这一现实中,做了大量奠基性的工作。事情的发展,和你当初预想的一样吗?

李飞飞:是,也不是。

首先,没有任何一个人可以“独占”一个学科。我们今天所处的现代AI这场巨大变革,是几代科学家和技术人员共同努力的结果。对于我们这些在这个领域已经深耕很久的人来说,我们当然一直相信AI的力量,也相信这门科学所能达到的高度。它是一种文明级别的技术。

但我必须说,过去——我可以说近十年,尤其是最近这几年——AI发展的速度,真的超出了我们很多人最狂野的想象。看到整个产业全面拥抱AI,同时整个社会也从各种不同的角度、不同的维度,带着非常强烈的情绪在讨论AI,这种感觉至今仍然有点不真实。但与此同时,它也让我感受到一种沉甸甸的责任。

Jon Fortt:你做了大量工作,来确保在AI的开发过程中,有更广泛的人群和视角能够参与其中,也能获得使用AI的机会。比如你曾多次谈到女性在AI领域中的角色。我想请你帮我们勾勒一下,你眼中“利害关系”究竟在哪里。

因为过去,我们讨论的是文学作品中不同视角的代表性,讨论的是媒体中的多元表达。但现在,我们几乎是在直接构建世界的版本,而这些版本将会反过来影响现实世界如何运转。为什么让多种多样的声音参与其中如此重要?

李飞飞:这不仅仅是“多一些不同的声音”这么简单。真正重要的是,整个人类社会、整个全球人口都能参与到AI当中,因为这是一项文明级别的技术。无论我们谈的是医疗健康、农业、教育的变革,还是机器人、能源与可持续发展,我们生活的每一个方面、工作的每一个方面,都会受到这项技术的影响。

人们经常问我:什么是AI?该如何理解它的影响范围和覆盖面?我常用的一个例子——其实也不完全是类比——是去想一想“芯片”可以存在于哪里。我们常常把芯片想象成那种体量很大、能耗很高的东西。但事实并非如此。现在几乎每一个灯泡里都有一颗非常小的芯片。你的冰箱里有芯片。汽车里有芯片。飞机里则有大量的芯片。只要有芯片的地方——从最微小的芯片到大型芯片——就有计算能力。因为芯片是计算的硬件基础。

而AI是新一代的计算方式。这意味着:任何依赖芯片、依赖计算的设备、系统或场景,最终都会依赖AI计算。所以你就能理解,这项技术的影响有多么深远。因此,它的“利害关系”就是——一切。当然,它会分阶段到来,但在这个时间点上,我们的学界、我们的社会,必须理解这项技术的深远意义。

Jon Fortt:我最近思考这个问题的一个角度是这样的。几个月前,也就是去年夏天,我有机会去曼谷参加CNBC举办的一场活动。在那里,我见到了我一位高中时期的老朋友——Kasimatharn Pippachai。他当时正在SCB10X工作,参与一个叫Typhoon的项目。这个项目的目标,是构建原生泰语的AI模型,而不是依赖英语、普通话等等其他语言。在那次拜访之后,在和我这位老朋友聊完他们正在做的事情之后,我开始用一种完全不同的方式去思考“本土化AI”的意义。

如果AI真正理解你的语言、你的文化、你的生活方式,那会怎样?而如果它不理解,如果你根本没有参与到这个系统的构建中来——谁会被包括进来?谁又会被排除在外?关于语言与文化如何深刻影响AI的理解方式,以及如果这些因素没有被纳入设计中,哪些人可能会被系统性地忽视——我们对这些问题的讨论,是否已经足够多了?

李飞飞:是的,我确实经常在世界各地旅行,与来自各行各业的人交流,包括欧洲、APEC地区以及美洲各国的政府与机构。我认为,人们、国家以及不同区域都非常清楚本土化AI的必要性。

我们现在的讨论重点常常放在语言模型上,这当然非常重要。你刚才举的例子,本身就是一个语言模型的案例。但AI并不只等同于语言模型。即便我们只聚焦在语言模型这一点上,本土化AI对人们来说也是至关重要的。不同地区、不同背景的人,拥有不同的文化、语境、共同经验以及情境细微差别。无论是艺术家、制造业从业者,还是其他任何行业的人,这些差异都必须被AI理解和尊重。

而且我认为,推动这件事的不只是“自上而下”的政策意图,并不是因为我们觉得“应该这么做”。真正的驱动力来自市场,来自人们本身的需求。我看到来自很多地区、很多政府,都对构建本土化AI表现出非常健康、积极的兴趣。

语言模型不是终点,空间智能是AI下一前沿

Jon Fortt:你提到AI不只是语言,这是一个很好的过渡,引向World Labs。你关注的不仅仅是文本提示和回复,而是沉浸式的、受物理规律影响的三维交互。我想这其中会涉及材质、触感,甚至在某个阶段,可能还能做烹饪模拟之类的事情。你认为在未来五年、十年,这样的技术会带来什么样的能力?你会把它和你多年前在图像领域所做的工作,做怎样的类比?

李飞飞:我的职业生涯是从计算机视觉开始的,它是AI的一个子领域。就像我一些同事是从自然语言处理起步一样,最终自然语言处理与AI的其他分支共同推动了GPT这样的技术出现。

在整个职业生涯中一直从事视觉AI研究,让我深刻意识到:空间感知智能(spatial perceptual intelligence)是智能的关键支点。

从进化的角度、从人类自身的角度来看,我们并不是只靠“说话”来生活的。我们早上醒来,会拥抱自己的孩子。会给他们做早餐。会开车送他们去上学。我们自己去上班。点一杯咖啡,并且知道该如何端起它、喝下它。

我们日常生活中的绝大多数行为,以及整个人类文明中的工作,都依赖于空间、感知与具身智能因此,在语言模型之外,AI的下一章、下一个前沿,正是空间智能。这也是为什么我们在不到两年前创立了World Labs。我们专注于打造下一代前沿模型,让AI能够推理、理解、交互,并生成三维、四维的世界。这些能力将赋能大量应用场景,包括:模拟、机器人、创意产业、设计、教育、医疗健康、制造业,以及更多横向扩展的空间智能应用领域。

Jon Fortt:因为这在某种程度上就相当于“图像捕捉”的进阶版本,它可以教会系统理解事物是如何运动的、相互碰撞时会发生什么、是否会碎裂,或者是否具有韧性。这些东西,单靠语言是没法完整描述的,对吗?

李飞飞:是的,确实无法做到。

首先,这已经不只是“用图像来进行推理”那么简单了,因为那仍然是一种相对被动的方式。而通过世界建模(world modeling)与空间智能,AI可以变得具有主体性(agentic)。它可以被计算、被规划,能够为具身智能体(embodied agents)提供更主动的能力。

就像我刚才举的例子,比如说你在做一顿饭,哪怕只是做一份很简单的意大利面。你当然可以用语言来描述这15分钟或20分钟的过程,但那仍然是一种高度有损的信息表达。比如你是怎么调酱汁的,你是如何把意面放进水里的,意面在水里发生了什么变化——这些细微之处,几乎不可能只用语言来准确描述。

而现实世界中的大量物理过程,不管是由人类发起的,还是人类与非人类系统之间的交互,本质上都超出了语言本身所能承载的范围。

Jon Fortt:最后一个问题。我知道你今天还有很多事情要做、很多人要见,非常感谢你抽出时间。你们在World Labs所做的这些事情,有一个应用场景很自然地会让人想到——那就是游戏产业。这里既有巨大的商业价值,也有创新空间和团队协作的可能性。我们应该在多大程度上期待,你们的这些工作会体现在更快、更高效的游戏开发中,并以此作为一种扩散影响力的方式?

李飞飞:是的,你说得完全对。游戏和互动式体验,确实是我们非常兴奋的一个市场方向。就在去年,大约两个月前——现在还只是二月初——我们发布了自己的第一个模型,以及一个名为Marble(World Labs出品)的产品原型。已经有非常多的游戏开发者在使用这些工具,玩得很开心,也不断向我们展示他们正在制作的作品。当然,目前这些还不是3A级别的大型游戏,而是体量更小的项目,但这本身就已经让我们非常兴奋。因为这意味着,我们已经开始真正赋能游戏开发者的创造力与创新能力。

Jon Fortt:非常期待接下来会发生什么。李飞飞博士,感谢你接受我的采访。

李飞飞:谢谢你,Jon。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载