
机器人能在80%陌生场景完成80%任务,就是“ChatGPT时刻”。
机器人前瞻3月17日报道,刚刚,宇树科技创始人兼CEO、CTO王兴兴在GTC2026上,介绍了宇树科技最近在具身智能方面的关键技术进展,以及对具身智能在任务泛化、数据效率与强化学习规模效应方面面临的核心瓶颈的看法。
王兴兴认为,具身智能虽然已经成为近两年全球最受关注的技术赛道之一,但行业距离真正跨过“ChatGPT时刻”仍有明显距离。当前最大的难题在于,还没有出现一个真正具备强泛化能力、能够在陌生场景中稳定执行任务的具身智能模型。
他预测这一临界点最快未来1-2年或2-3年可实现。
王兴兴强调,运动能力和干活能力必须同步推进,但前者仍然是后者的前提。没有足够丰富的动作表达、没有足够高的稳定性,机器人就很难真正走进工厂、家庭和更多真实场景。
但在他看来,真正制约行业跨越临界点的,已经不只是单一产品或单项动作表现,而是模型层面的系统性能力。王兴兴提出,要迈过具身智能的“ChatGPT时刻”,行业至少还要解决三件事:
一是提升模型对任务和动作的表达能力,突破泛化瓶颈;二是提高对视频、仿真和真机等多元数据的利用效率,减少对大规模真机采集的依赖;三是让强化学习形成可复用、可积累的规模效应。
在技术路线判断上,他看好世界模型和视频生成模型,认为这条路线天花板更高,也更有机会利用互联网海量视频和文本数据。
王兴兴觉得,如果未来机器人能够在80%的陌生场景中,仅通过语言或文字指令完成80%的任务,那才意味着具身智能真正迎来了属于自己的“ChatGPT时刻”。
以下是王兴兴本次演讲内容的整理(机器人前瞻在不改变原意的前提下,进行了一定程度的增删修改):
01.
二十年后看,G1也依旧是一款经典产品
宇树成立于2016年。更早的时候,我大概从2013年开始做四足机器人;人形机器人其实更早,2009年我还在读大学的时候,就做过一个小型人形机器人。
这几年,我们公司陆续做了好几款人形机器人。目前比较经典的一款,是2024年5月发布的小尺寸人形机器人G1。某种意义上,它已经成为全球范围内非常经典的一款机型。很多国内外用户都在使用它,甚至不少别的公司也在研究、借鉴这款机器人的设计方案。
这款机器人的最大特点,是小巧、紧凑、性价比高。它大概一米三左右,重量几十千克,腿部和手部的自由度都很高,传感器配置也比较完整,整机的紧凑度非常高。所以它的易用性、外观美观性,在全球范围内都表现得很好。即使再过十年、二十年回头看,这款机器人也会是很经典的一代产品。
去年,我们又发布了一款中型工业级机器狗,各项性能指标都很强,可以做室内外的巡检等工作。
同时,我们还发布了一款身高1.8米的大尺寸人形机器人H1。这款机器人的整机比例做得更好,更像人,灵活度也很好。当然,它的尺寸更大,现阶段更适合做一些体力型工作,比如工厂场景、农业场景等。
前段时间,我们还发布了一款小型机器狗As2。它有基本的防水能力,负载能力也很强,可以承载十几千克的负重,而且续航时间比较长。从硬指标来看,这款产品目前在全球也属于领先水平。我们希望它未来能真正帮助人做一些实际的事情。比如徒步、旅行的时候,大家不需要自己背包裹,有它帮忙,过程会轻松方便很多。
我们之所以继续做更大尺寸的人形机器人,是因为小尺寸机器人在支撑能力、负载能力、手臂力量等方面,天然还是会受到限制。
如果真的要进入工厂、家庭,尤其是做更偏体力型的工作,那么机器人的尺寸、力量和结构都必须更进一步。也正因为如此,大尺寸机器人在能力更强的同时,也会带来更高的安全要求。
目前,这类大尺寸人形机器人已经可以学习和完成一些相对复杂的工程作业。但因为整机更重,力量也更大,所以近距离接触时必须保持足够的安全距离。至少两到三米会更安全一些,否则被手臂或者腿部碰到,确实是可能受伤的。
02.
机器人想要大规模应用,
稳定性必须足够好
在运动性能方面,我们这些年做了很多工作。
我们的人形机器人H1,在运动能力上已经拿到了很多有代表性的成绩。比如长跑1500米,大概能跑到六分多钟,一般人可能已经跟不上它了。当然,短跑方面,现在还没有那么强,还需要继续提升。
除了硬件,我们去年也做了很多软件升级。比如自动化控制、任意动作下的抗冲击能力、摔倒之后自主起身等。这些技术都非常有用。
因为我们相信,机器人未来想大规模应用,最重要的一点就是稳定性必须足够好。哪怕出现极端情况,它也要能自己恢复、自己站起来。
从目前来看,我们机器人的算法对硬件的适配能力比较强,所以在不同机型上的泛化表现也相对更好。理论上,现在人可以做的很多动作,机器人其实都已经可以尝试去完成。
当然,一些特别复杂的动作,还是会遇到问题。比如动作里有很大的侧向力,或者地面比较滑,这些都会带来挑战。但总体上,我们还是希望不断把运动能力做到更强。
去年,我们在RL控制模型上做了很多升级,包括基础跑步、舞蹈动作、武术动作,以及机器人在任意动作下受到干扰后的快速恢复和稳定控制。去年下半年,我们也做了比较完整的全身遥操作。
我觉得,在全身深度强化学习上,很多核心问题其实已经基本被解决了,接下来更多是继续完善。
03.
春晚背后,不是单个动作训练,
而是整套系统能力
今年2月,我们参与的春晚节目在国内外都得到了非常热烈的反馈。为了做这个节目,我当时几乎把能找到的中国传统功夫动作都梳理了一遍。最初大概找了上百个动作,再从里面筛选出更有表现力、更适合机器人的动作,最后留下了几十个,包括醉拳、双截棍、舞棍、舞剑等比较经典的内容。
同时,我们也挑战了一些高难度动作。比如原地连续空翻之类的动作,对电机和腿部的负载压力都非常大。再比如上墙动作,我们也希望挑战更高难度,不只是单步,而是做更高、更有视觉冲击力的动作。
在节目中的舞棍部分,我们还用到了灵巧手,这样机器人就能抓握棍子。除此之外,更大尺寸的人形机器人也在分会场做了特别的造型和展示,整体都很有趣,也很有意义。
在节目里,我们对机器人稍微进行了一些改装。
比如把头部激光雷达换成了128线的3D激光雷达,并调整了朝向,让它能够看到周围更多的信息。因为激光雷达只看下方或者侧面,在多人、多机密集场景里很容易被遮挡。
另外,,我们使用的是一个预训练的全身RL模型,而不是单独训练一个RL模型。这样做的好处是,它的复合能力更强,训练和调试更方便,也更利于快速走位、复杂动作组合,以及不同硬件之间的兼容。
简单来说,我们现在做复杂动作时,理论上可以让机器人瞬间停下来,停稳之后再瞬间切到下一个动作。如果用更早期的技术路线,很多单动作策略是没法这样中途暂停和切换的,一停就可能摔倒。现在可以做到稳定停住,再切换动作,这对调试和组合各种复杂动作帮助非常大。
另外,我们还开发了全身状态感知模型,让机器人在动作过程中更好地完成感知和决策;同时也做了集群控制系统,可以调动几十台、甚至上百台机器人完成复杂走位和编队。
04.
运动和干活,必须同步推进
我们一直认为,运动能力和干活能力都非常重要,而且必须同步推进。某种意义上,运动能力还是干活能力的前提。
因为机器人要干活,先要满足几个条件。第一,它的动作表达必须足够丰富,能够做出各种各样的动作;第二,它在做这些动作的时候必须足够稳定。如果连这两点都做不到,就很难谈真正的干活能力。
这有点像动物。比如蚂蚁、老鼠、狗,它们的大脑未必非常发达,但运动能力照样很强。所以我觉得,运动智能某种程度上反而是一个相对更容易实现、也是必然要先做好的能力。先把身体能力做出来,再把“大脑”和“干活模型”做得更好,这是必要路径。
过去几年,我们也一直在推动机器人干活这件事,但客观来说,这件事在全球范围内依然都很难。
我们一直希望机器人真正去生产机器人,所以前段时间,我们也在开发相关模型,并尝试把它们用到人形机器人上,让人形机器人进入工厂,去生产人形机器人。这件事我觉得非常有趣,也有意义。
当然,现阶段如果是特别复杂的工位,比如装配关节模组,因为零部件多、工序复杂,它的成功率还不是特别高。但如果是抓取单个零部件,或者一两个零部件组成的相对简单动作,在训练完成后,基本可以做到接近百分之百的成功率。
从全球范围来看,多工序、长任务链、而且还涉及小零部件的复杂操作,依然是非常有挑战的事。
另外,我们去年下半年做得比较好的一项技术,是全身遥操作。这项能力非常实用,尤其适合大规模数据采集。
当然,目前这种遥操作方案在全世界范围内都还有一些共性问题。比如真正动起来以后,动作完成度和真人相比还有差距;在一些复杂动作里,脚会抖,身体也会抖,这会影响整体操作体验。这些地方还需要继续完善。
但从稳定性来看,这套方案已经做得比较好了。我们公开展示的视频也没有加速,都是一比一的真实速度。
05.
迈过“ChatGPT时刻”,
当前还有三个关键问题要解决
如果要讨论具身智能怎么迈过“ChatGPT时刻”,我觉得首至少有几个关键问题。
第一,提高模型对任务的表达能力,突破泛化瓶颈。
现在很多模型,连“表达”本身都还不够强。它可能只能做一些基础动作,但如果要让它做任意动作、实时生成动作,或者更高级、更复杂的动作,模型本身还很难完整表达出来。
如果模型连动作都表达不出来,就更不可能让它真正高质量地执行出来。所以,模型的运动表达能力一定要更强。这里面,多模态模型、感知能力、模型本身的编码器和解码器,都还需要继续改进。
第二,是提升模型对多元数据的利用率。
机器人和语言模型不一样,机器人数据目前仍然很稀缺。在真实机器人数据非常少的情况下,如果必须依赖海量真机数据才能把模型训练出来,我觉得这个数据利用率还是偏低了。
所以我们应该尽可能在预训练阶段,多使用视频数据、互联网数据、仿真数据,先把基础模型训练出来,再提高对真实机器人数据的利用效率。这样,真机数据可以更少,但系统依然能够跑起来。
哪怕你真的有一万台机器人,也派一万人去采数据,最后效果也不一定好。因为这里面还有数据质量、硬件差异、传感器差异等很多问题。不是说机器数量多了,数据效果就一定会线性提升。所以我一直觉得,大家需要进一步提高数据利用率,尽可能多利用视频数据和仿真数据,尽可能减少对真机大规模采集的依赖。
第三,提高强化学习的规模效应。
现在很多情况下,一个机器人的运动策略训练好了,数据就丢掉了。下次做新动作,又要重新训练。理想状态应该是把这些数据收集起来,重新放进一个统一模型里二次利用,不断复用、不断累积,让强化学习也能出现类似“越训练越强”的规模效应。如果这件事能做好,强化学习的收益会非常明显。
06.
世界模型或视频生成模型,
是未来发展方向
最近几年,具身智能领域出现了很多路线,比如比较经典的VLA模型,也有基于视频生成的模型、视频世界模型等。
我个人认为,未来更有希望的方向,还是世界模型或者基于视频生成的模型。因为这条路线的天花板更高,甚至某种意义上,大家现在还看不到它的天花板在哪里。
原因也很简单:如果走这条路线,机器人模型可以更充分地利用互联网已有的大规模视频数据、文本数据,而不是只依赖自己采集的真机数据。它的数据基础天然更大,想象空间也更大。
去年到今年,我们也开源了一个基于视频生成的世界模型。简单说,就是机器人先在“想象”里生成未来要做的动作,然后再把这个想象过程和真实机械动作对齐,最后再去执行。从展示效果来看,视频生成部分已经做得很好。
当然,这个方向也有明显难点。最大的问题是:视频模态和真机模态很难完全对齐。 在视频生成里,误差可能非常小,甚至几乎为零;但真正落到机器人执行时,哪怕只差一毫米,效果都可能完全不一样。所以未来可能还是要把视频生成和强化学习结合起来,才更有机会真正跑通。
我们前段时间也开源了自己的VLA模型和训练架构,但就我个人的判断来看,现阶段VLA模型的天花板,相对还是低一些。它确实有价值,但它在很多方面还存在瓶颈,尤其是泛化能力,目前还没有看到特别理想的结果。
07.
80%陌生场景里任务完成率能达80%,
就是具身智能“ChatGPT时刻”
如果未来某一天,在80%左右的陌生场景里,只通过语言或者文字指令,机器人就能完成80%左右的任务,那我觉得,具身智能就真正迈过了它的“ChatGPT时刻”。
这里面最核心的点,是陌生场景。也就是说,你必须把机器人直接带到一个它从来没见过、训练集中也没出现过的环境里去,不需要重新训练,不需要重新采数据,不需要提前扫描地图,不需要复杂部署,直接把机器带过去,它就能开始干活。
从概率上讲,AI这件事多少还是带点运气成分。也许哪一天,突然有一家公司,或者某个非常厉害的团队、某个天才,就把这个模型真正做出来了。
但我觉得,无论是谁做出来,这对整个行业都会是巨大利好。它会真正点燃行业的热情,让具身智能成为一个全球性的、历史性的时刻。
所以,为了解决刚才提到的这些问题,我觉得最重要的还是全球共同合作。机器人、AI、具身智能,都不是一两家公司,甚至也不是一个国家就能独自完成的事。更多时候,它需要全球共同努力。
无论最后是谁率先做成,对整个行业都是好事。这个行业本来就是一个新兴行业,我一直觉得,大家好,才是真的好。我们也希望有更多人进入这个行业,把东西真正做出来,而且做得更好。谢谢大家。