清华邓志东教授:大模型助力自动驾驶落地,特斯拉至少领先行业三年
科技
科技 > 车研所 > 正文

清华邓志东教授:大模型助力自动驾驶落地,特斯拉至少领先行业三年

作者 | Juice

编辑 | 志豪

自动驾驶在走过低谷之后,正开始重新攀登高峰。

从去年开始,国内自动驾驶市场的整体表现并不算好,大额融资变得寥寥,而技术上的突破也并不明显,整个行业走向了低谷。

但今年,这一趋势发生了很大的变化。

从政策角度来讲,工信部等四部委联合发布《关于开展智能网联汽车准入和上路通行试点工作的通知》,正式对L3/L4自动驾驶的准入与上路进行了具体的规范,为L3/L4向商业化、规模化迈进进行了政策法规的创新引领与适度超前部署。

11月29日!2023国际汽车电子与软件大会·滴水湖峰会将在上海召开

▲《关于开展智能网联汽车准入和上路通行试点工作的通知》

而从技术层面来看,以ChatGPT为代表的通用人工智能技术正在给自动驾驶的发展注入新活力。传统的小模型、小数据弱人工智能方法正被换挡,通过大模型来布局自动驾驶的路径越发明显。

其中最典型的玩家当属特斯拉,通过端到端的大模型技术,其在自动驾驶方面的最新产品FSD V12在海外的表现已经非常稳定了,引进国内也指日可待,届时,特斯拉在自动驾驶领域可能会再次化身为鲶鱼,搅起新的风暴。

11月29日!2023国际汽车电子与软件大会·滴水湖峰会将在上海召开

▲特斯拉FSD Beta在不同环境下的示意图

从用户接受度的维度来看,现阶段,部分新购车的用户尤其是新能源汽车的车主对于智能辅助驾驶NOA的接受程度已经越来越高了,完成了初步的用户教育,这也为自动驾驶的真正规模化落地提供了可能性。

可以说自动驾驶的发展正进入一波全新的发展周期。

而在大好形势下,我们也应该清晰地认识到,自动驾驶的发展也还有一些难题需要解决,比如说大模型如何为自动驾驶赋能?放开L3/L4准入政策后,怎样才能真正实现产品落地?多种技术路线之争应该如何决断?

如果不能很好地回答这些问题,那对于自动驾驶的发展来说仍然会产生不小的影响。为了更好得到这些问题的答案,车东西特地采访了国内人工智能和自动驾驶领域的先行者——清华大学计算机系长聘教授,博士生导师,清华大学人工智能研究院视觉智能研究中心主任邓志东教授。

邓志东教授是国内最早一批开始从事人工智能研究的专家之一,同时在2009年就开始了自动驾驶的研发与实践,也属于最早的一批研究者,因此在这两方面无疑有着足够的积累和发言权。

另外预告一下,12月19日,邓志东教授将会在智一科技旗下智能汽车产业新媒体车东西联合硬科技讲解与服务平台智猩猩在深圳联合主办的2023全球自动驾驶峰会(GADS 2023)上发表《多模态视觉语言大模型助力自动驾驶产业落地》主题演讲,分享他对于人工智能和自动驾驶的最新见解。

一、ChatGPT是分水岭 人工智能发展提速

在人工智能领域,邓志东教授绝对算得上是老资历了,1992年在清华博士后期间就开始投身到了人工神经网络的研究方向。

当时研究的主要是人工神经网络与非线性系统学等,这些在当时还处在非常早期的阶段,人工神经网络模型还在缓慢的量变过程中,没有达到质变。

人工智能产业从2012年开始起步,十几年间,真正落地的产品并不算多,一些落地的产品主要为人脸识别、机器翻译与语音识别等,但机器翻译的“机器”味道似乎还比较浓,整个行业并未闭环一个良好的产业逻辑。

2022年,很多行业内的从业人员对于(弱)人工智能产业能否真正落地产生了怀疑。

而ChatGPT无疑是一个划时代的产品,大模型在某种意义上把人工智能这个产业又重新救活了。

11月29日!2023国际汽车电子与软件大会·滴水湖峰会将在上海召开

▲ChatGPT聊天页面

不过大模型并不算是一个全新的概念。预训练与微调的范式,2015年前后就出现了,2017年Transformer问世后就开始有了大模型。事实上,2020年出现了两个重要的AI进展,一个是OpenAI推出的GPT-3,另一个则是谷歌的AlphaFold 2,这两项成果被普遍认为是人工智能领域六十多年来产生的“诺奖级”成果。

事实也确实如此。AlphaFold 2就成为了今年诺贝尔奖的候选成果之一,虽然最终没有获奖,但是这一成果和GPT-3基础大模型之重要性,可谓不言而喻。

这些大型语言模型与以往最大的不同之处在于,已开始出现了一些认知能力,这是此前不曾有过的,人工智能确实更聪明了。从目前的视角回头来看,2022年11月30日ChatGPT惊艳问世之前的人工智能十年,应该叫做弱人工智能时代,当时一个模型只能解决一个任务。

当时是小数据、小模型,通常需要标签进行完全的监督学习,而且也还没有摆脱机器性。

现在最大的不同就是模拟并构建了人类语言模型与世界知识模型,开始运用人类的语言思维来理解和学习了。这是一个非常大的突破,语言实际上属于高级文明,不仅可帮助人类沟通交流,而且还便于记载文明,促进人类知识传承,让下一代人站在人类知识总和的肩膀上前行。

相比于人类,机器对人类知识的传承效率更高,可以在短短数年时间内学完人类整个一般性的文本知识,甚至还能记忆得更加准确。

大模型的发展离不开Transformer的出现,2017年6月12日谷歌的NLP研发人员在进行神经机器翻译的时候提出了Transformer这种可规模化的新一代神经网络模型。

11月29日!2023国际汽车电子与软件大会·滴水湖峰会将在上海召开

▲八位在谷歌工程师率先提出Transformer

邓志东教授认为,Transformer的诞生并不是突然出现的,当时行业内已有很多人都在研究LSTM模型的注意力机制,包括怎么使用多层的编码器,怎么使用多个的解码器层,怎么去做隐含的特征表达等等,实际已经有了Transformer的雏形。

但是这样的突破性创新或许只能出现在巨头企业里,原因是相比于LSTM,Transformer更加复杂“冗余”了,这就需要更多的GPU算力,显然当时只有头部企业才能有足够的算力去考虑或支撑这样的研究。

不过,Transformer诞生之初还仅是为了做机器翻译,后来才开始用来做文本语言大模型。OpenAI在2015年12月正式成立,初心就是要实现通用人工智能(AGI),而这一使命或愿景也是十分大胆的,此前极少有人敢提及这一观点。

11月29日!2023国际汽车电子与软件大会·滴水湖峰会将在上海召开

▲OpenAI初始成员

实际上,OpenAI的核心团队都是硅谷非常成功的人士,新的阶段有了更加宏大的目标。

OpenAI的早期并没有做出什么重要的成果,回过头去看,初期的GPT-1和GPT-2都没有太大的意义,不具有明显的优势,直到GPT-3的出现。

这主要跟模型的架构有关系,BERT等编码器架构的模型文本阅读理解与特征表达能力会比较强,但是生成能力相对较差,反过来,GPT等解码器架构的模型生成能力比较强,但阅读理解能力比较差,OpenAI正是选择了后一种技术路线。

后来通过Transformer神经网络规模的不断增加,特别是与GPU算力的交替跃升之后,才通过大型语言模型的自监督学习与构建,获得了非常大的性能提升。

随着算力和数据的不断扩增,人工智能的能力也在不断提升。现在GPT-4 Turbo甚至已经可以开始利用外部工具了,包括可以调用很多Action来完成任务,这也是一个非常大的突破。

11月29日!2023国际汽车电子与软件大会·滴水湖峰会将在上海召开

▲OpenAI CEO山姆·奥尔特曼发布GPT-4 Turbo

但也应该明确的一点是,通用人工智能的发展还刚刚拉开序幕,一切才刚刚开始。

从这个角度来看,我们正处在一个非常幸运的时代,还有大量机会见证通用人工智能更多的发展变化。

二、大模型赋能智能驾驶 特斯拉是先行者

从仅十年人工智能的发展角度来看,有三个人的作用非常突出,一个是图灵奖得主杰弗里·辛顿,另外两个则是辛顿的博士生,一个是前一段时间OpenAI“政变”的核心人物伊利亚·苏茨克维(Ilya Sutskever),另一个则是亚历克斯·克里切夫斯基(Alex Krizhevsky)。AlexNet就是以后者的名字命名的,而伊利亚作为OpenAI的联合创始人与首席科学家,则在GPT的发展过程中做出了很大的贡献。

除此之外,特斯拉AI与Autopilot 视觉主管,斯坦福李飞飞教授的博士生Andrej Karpathy,曾是OpenAI的创始成员及研究员之一,2017年至2022年则成为特斯拉人工智能与自动驾驶的灵魂人物。

11月29日!2023国际汽车电子与软件大会·滴水湖峰会将在上海召开

▲Andrej Karpathy(左)与马斯克(右)在特斯拉AI DAY上演讲

Karpathy在特斯拉负责人工智能与AutoPilot期间,于2020年主持将特斯拉EAP的所有底层代码都进行了Transformer重写,这与他的OpenAI工作经历不无关系。

也是在那个时候,马斯克才正式对外喊出了要推出FSD Beta。

所以特斯拉较早就知道要用大模型来落地自动驾驶。为了更好地支撑多模态大模型的发展,特斯拉还专门研发了Dojo超算,也购置了大量的A100。

11月29日!2023国际汽车电子与软件大会·滴水湖峰会将在上海召开

▲Dojo超算机柜

目前人类已经进入到了互联网和移动互联网时代,每天都有海量的数据涌现,因此必须要采用自监督或者无监督的学习方法,这就对数据本身的质量具有非常之高的要求。

而特斯拉既是一家人工智能算法与算力公司,也是一家自动驾驶公司,更是一家主机厂,不但具有足够多的数据,也拥有足够强的算力支撑,并且已经在大模型算法方向上走了较长时间了。

BEV+Transformer算法的使用,不用激光雷达也可以进行纵向距离的测算与补全,这也是一个创新性的做法。

大型语言模型的使用对于自动驾驶的性能提升非常明显,例如,通过视觉语言大模型就可以直接阅读理解道路交通场景,并生成详细的文本描述。

从GPT-4V的案例来看,视觉大语言模型对于整个驾驶场景识别的正确率已经比较高了,例如对高速、城市道路,对晴天、雨天、雾天,还有对不同时间段的分类等。但对一些复杂场景的微观细节的检测与识别,则还有不少问题需要解决。

当大模型人工智能获得了道路交通场景的感知能力之后,再配合类似于Q*之类的深度强化学习算法进行决策与规控,特别是利用多模态大型语言模型进行端到端的整体贯通之后,甚至直接通过交互就可进行智能体学习,这就和人一样,只要经过一些驾驶技能的培训与操练就能够上路了。

目前产业界和学术圈对于特斯拉FSD V12都很期待,这一版本正是用彻底的端到端思路来实现高阶智驾的,跟人类一样,输入是不断涌入的图像帧视频,输出就直接是转向、制动与加速这三个模拟量。

这个过程中会存在较多的问题,例如中间的感知、预测、决策与规控过程其实是不透明的,另外就是如何处理边缘事件?现在看来,特斯拉可能通过视觉大模型与超级算力有效地解决了后面这个问题。这可能是因为他们已拥有了足够多的高质量训练数据,或多模态大模型出现了超强的零样本泛化能力。

另外特斯拉已经从2020年就开始做这个事情了,而且作为头部造车新势力,也积累了世界上最多的数据,而国内则在今年3月之后才开始加速布局,中间的差距至少有三年,所以在短时间内很难去超越特斯拉。

11月29日!2023国际汽车电子与软件大会·滴水湖峰会将在上海召开

▲特斯拉基于视觉数据构建3D空间

国内的智驾玩家中,华为投入了大量的人力与资源进去,技术扎实,目前走得比较靠前。而百度、小鹏等也投入了大量资源,也有相当不错的表现。

但对于国内玩家来说,特斯拉FSD V12引进国内或将会是一件非常大的事件,短期或会受到冲击和挑战。

邓志东教授认为,特斯拉FSD进入国内或会面临一个环境适配的过程,但这个过程不会太复杂。

三、自动驾驶将会落地 商业模式也得以构建

对于自动驾驶未来的发展方向,邓志东教授是非常看好的。

从产业来讲,这个行业出现也不过十几年的时间,中间经历了多次起起伏伏。例如,2016年、2017年行业热度非常之高,很多初创企业都拿到了融资,但后面也经历了一段时间的寒冬。

总体上,目前国内智能驾驶玩家做的都还不错,在NOA或L2++方面已有很好的表现,产业链上游的激光雷达、4D毫米波雷达等关键零部件,还有自动驾驶芯片与域控制器、智能座舱等等,都得到了迅猛的发展。但NOA阶段还只能叫做自动辅助驾驶,真正到了L3以上才可以叫自动驾驶。

11月29日!2023国际汽车电子与软件大会·滴水湖峰会将在上海召开

▲华为城市NOA年底覆盖全国

邓志东教授认为,目前可能是发展真正的自动驾驶最好的时代。

首先,从政策层面上来看,前一段时间四部委发布的《通知》是一个重大的利好,已有了政策法规基础。

其次,多模态大语言模型的出现则是技术上的一个重大利好,完全突破了弱人工智能时代的局限。

最后,特斯拉FSD V12的出现也将会是一个非常重要的变量,该产品基于视觉大模型进行了产业实践。这些都是单车智能的重大技术进展,应该说是根本性的。

对于L3规模化落地来说,目前还需要做的一件事就是做好云边代驾这个工作。现在一个远程安全员只能监控一辆车,未来需要一个人监控十辆、甚至一百辆车,这样就能做到成本分摊,真正构建起盈利的商业闭环。如此L3.999就自然过渡到了L4,这就类似于目前一些厂家声称的L2.999的NOA进入L3一样。

而这可以也能够通过大模型的预测与决策能力来实现。例如,在云边通过大模型对限定区域自动驾驶车队的安全性进行预测,一旦出现安全异常,就会通知远程安全员及时进行安全接管。

通过智能路网基础设施上的云或者边缘去远程接管车辆,这个过程需要进一步提升自动驾驶基础设施的移动通讯能力,例如需要使用5.5G甚至6G,才能进一步提升其安全性与可靠性。

这样一来,“机-人共驾”的L3+级别的自动驾驶车辆可以去掉驾驶员的人工费,再加上“一对多”远程安全员的成本节省,这就会为自动驾驶构建起真正的商业模式闭环。

11月29日!2023国际汽车电子与软件大会·滴水湖峰会将在上海召开

▲百度5G云代驾座舱

采用与智能路网结合的方式进一步提升自动驾驶的安全性,需要由政府牵头来进行组织协调,毕竟这需要各种路侧端资源的大投入。

现阶段国内玩家都已经开始高速与城市NOA的激烈市场竞争了,未来三到五年间或拼杀为红海市场。当然那个时候,也可以尝试进行技术出海。总之,有远见的企业必须开始思考并布局L3+自动驾驶的规模化产业落地了。

四、自动驾驶产业链将洗牌 结合视觉大模型的公司更容易产业落地

在自动驾驶领域,多模态大模型不但会促进技术的变革,甚至可能会引发产业链的洗牌。

目前自动驾驶产业有点百花齐放的感觉,只要拉起来一个团队就可以从头到尾做出自动驾驶解决方案。既有远程安全员接管的L3+的全无人自动驾驶乘用车,也有矿山、港口等各种特定应用场景的L4自动驾驶重卡和物流、配送、售卖等MaaS移动服务商务车等。

11月29日!2023国际汽车电子与软件大会·滴水湖峰会将在上海召开

▲无人驾驶矿车已经在部分矿山落地

多模态大模型的发展需要巨大的资源投入,这意味着只有少数的玩家才有能力去做持续的研发,而一些创业公司则很难从头开始进行通用视觉大模型产品的落地。

这将会导致整个自动驾驶产业未来更加专业化,多模态通用大模型由几家大型企业牵头供给,小公司则可以针对各种实际应用场景做模块集成和知识服务等方面的创新应用。

这个过程中甚至可能会有一些公司就消失了。

这对于主机厂来说也是一件非常利好的事情,此前主机厂在自动驾驶和人工智能方面的积累不够多,在招人方面也比较费劲,招到了人短时间内也很难搞出落地产品,还不如索性拥抱产业分工。

产业重新分工反而可能会让自动驾驶更加接近现实,更容易落地商业化。

目前L3和L4的落地尤其是整车L3+的落地则会是行业内非常重要的关键节点,随着政策法规的不断完善,随时通用人工智能的不断进步和发展,逐步会有企业宣布产品落地。

结语:自动驾驶发展迎来了最好的时代

在自动驾驶不算太长的十多年发展史中,行业已经起起落落了很多次。过去几年中,由于技术瓶颈出现,并且在量产落地和商业化方面没有太好的进展,因此一直处在一个低谷期。

但大模型的出现改变了这一切,OpenAI的突然爆红也让更多玩家开始思考大型语言模型是否可以助力自动驾驶,而一些先行者如特斯拉,两、三年前已经开始使用视觉大模型来做自动驾驶了。

从特斯拉FSD V12展示的一些成果来看,用多模态大模型来做自动驾驶可能是一条非常不错的路径选择,目前国内自动驾驶玩家也都开始积极入局推动。

另一方面,高阶自动驾驶长期以来都面临着相关法规缺失的问题,目前国内已经补上了这一块空白,在政策层面上给予了自动驾驶强力支持,以期引领应用创新。

技术出现大的突破,政策法规开始更加支持,消费者对于NOA与自动驾驶的接受度也正在逐步提升,可以说自动驾驶行业又一次迎来了最好的时代。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载