2026-06-02 08:51:14凤凰网科技 来自北京市

摘要:
“万有引力公式里没有任何运动参数。万有引力不描述运动,却支配了所有运动。本能也是这样。”
凤凰网科技 出品
作者|董雨晴
2026年初,当所有人都在谈论VLA(视觉-语言-动作)模型、世界模型和端到端学习时,有9个人以一条截然相反的路,杀出重围。
从2016年到2023年,8位在不同年份入学的清华博士生全部加入了一个由他们的老师发起的项目——橡木果机器人。

图|来源于小红书博主@橡木果 AcornRobot
这在师生创业史上极为罕见。没有一位学生选择留校、去大厂或出国,他们像约好了一样,一头扎进了一个尚未被主流视野理解的方向:操作本能。
姜峣在哈佛做博士后时,研究的是人脑如何控制手。他发现一个耐人寻味的事实:语言需要后天学习,但抓取——这个最基本的操作行为——没有人教,却人人都会。而且无论你来自哪个国家、什么文化背景,抓东西的方式几乎一模一样。他由此相信:操作有本能,而语言没有。
这个信念,让他与整个数据驱动的AI浪潮背道而驰。在过去八年里,他们不追热点、没有开启融资,甚至不愿出来露面。直到2025年底,当VLA被证明在工业场景中频频失灵,当世界模型的仿真能力撞上接触力学的天花板,行业才开始回头看:这个做了八年“本能驱动”的团队,到底能提供什么价值?
以下是凤凰网科技《浪潮》与橡木果机器人发起人姜峣的对话,这是他们第一次系统地对外讲述自己的技术路径、产品思考,以及这个可谓“豪华”配置的技术团队为什么愿意把自己最年轻的八年押注在一个“反共识”的信念上。

反共识的起点:我们不是数据驱动,是本能驱动
凤凰网科技: 你们跟市面上其他具身智能团队最大的不同是什么?
姜峣: 最大的区别在于,大家更多是数据驱动、自上而下,我们是本能驱动、自下而上。这个差异是根本性的。
为什么大家会选择数据驱动?因为自然语言这条路跑通了——通过大量数据堆积,语言的智能能力涌现了。于是大家觉得,这个范式既然能成,那应该可以用来干所有事,包括自动驾驶、机器人操作。
但操作和语言很不一样。
凤凰网科技: 不一样在哪?
姜峣: 我在哈佛做博士后时,实验室是做神经科学的,研究人脑的学习和行为特性。2017年底,我跟导师做了一个实验,发现一个很有意思的现象:操作有本能,而语言没有本能。
你不对一个小孩做语言训练,他一辈子也学不会说话。让他学中文就说中文,学英文就说英文——语言完全是后天数据驱动的。但操作不是。比如把桌上一瓶水抓起来,从小到大没有人教过我们怎么抓,但每个人抓取的行为模式非常相似,不管年龄、文化、教育背景、生长环境有多大差异。
这说明背后一定有某种东西在驱动这个行为模式——这就是本能。
凤凰网科技: 本能具体指什么?
姜峣: 人有一些天生本能,比如对疼痛刺激会往后退,眼睛遇到强光会闭上,所有人都一样。操作也有类似的本能,只不过它更难被揭示。这件事让我意识到,操作和语言在人身上就是不一样的,所以我们不能把语言那套完全照搬到操作上。
凤凰网科技: 所以您的学科背景——神经科学、生物学、工业机器人——其实是跨界的。
姜峣: 对。我16年之前做工业机器人,后来出国去哈佛完全是阴差阳错。当时AlphaGo特别火,我想做learning方向,申请了一个实验室,看名字里有“Motor Learning”,我以为说的是电机、驱动。去了才发现,人家做的Motor是人脑的运动控制——这是一个非常前沿的交叉学科,神经科学,属于人工智能的前端。
但那段经历对我影响很大。2018年回国后,我在清华开始组建实验室,从那时候起就一直沿着这个方向走。
凤凰网科技: 从2018年到现在,八年时间。你们团队是怎么搭起来的?
姜峣: 第一个博士生从2016年就开始联系了。2018年回国后,我们一起开始做这个技术路线。当时我提了一个最基本的期望——为了让学生理解这件事,我举了一个很简单的例子:
你看我能把这瓶水从桌上抓起来。但怎么抓?如果用传统方法去建模,我得先把水的重量、质心、摩擦系数全部获取到——但你还没抓,这些信息你根本不知道。用数据驱动也可以,但你要抓重的、轻的、软的、硬的,要模拟各种工况,数据量会非常大。

图|机器人抓取技能展示:串糖葫芦
我就用这个问题反复考他们:有没有更好的方式?更优雅的方式?
凤凰网科技: 他们被你说服了?
姜峣: 不是一下子说服的。我花了很大时间去给他们讲这个理念——操作有本能。如果不认可这件事,就没办法进我们课题组。有些计算机背景的人想来读博,但我发现他们很难改变数据驱动的理念,我就没让进。
所以这些学生选拔时重要的一关,就是要考察他们对“本能”的认知和信念。后来我们创业时,从2016年到2023年的8位博士全部加入,一个不落——师生创业有学生跟着,但所有学生都跟着,这很少见。大家就是对这个路线有共同的信念。
凤凰网科技: 什么时候你们有了技术上的突破?
姜峣: 2021年的时候,我们发现并构建了基于滑移感知的底层本能反射——不需要数据,也不需要建模,根据滑移的本能反射,在物体抓取过程中就可以自主选择最合适的力,既不过大把东西抓坏,也不过小让它掉下来。这个突破让团队坚信,本能确实存在。
从那以后就水到渠成了。我们开始探讨:人有哪些操作本能?怎么赋予机器人?在这个过程中,也认识到触觉非常重要。有人专门研究触觉,有人研究本能跟肌肉(也就是电机)的绑定,大家背靠背配合。

“硬件没有最好的预训练模型”
凤凰网科技: 你什么时候发现行业也开始往这个方向思考了?
姜峣: 一开始大家是不太认可的。我们这么多年一直没有在行业里宣扬这条技术路线,一方面是团队太关注技术,另一方面是因为——操作最底层的逻辑是通过接触改变环境,这跟语言、图像处理完全不一样。接触行为非常复杂,需要触觉、需要对本能的深刻理解。
但最近大家开始反思了,因为发现自上而下并没有达到期望,没有像自然语言、自动驾驶那样出现scaling的效果。有人意识到是不是要加触觉?国外一些头部公司也开始琢磨这种细腻的手感怎么获取。
我觉得时机恰好——我们已经有了多年的积累,行业也开始需要新的路线。
凤凰网科技: 你怎么看去年很火的VLA?
姜峣: VLA表面上看是少了触觉,但这只是表象。它最大的问题是:想把信息输入到输出全部搞定,从上至下一体化——这不现实。
为什么?因为操作里面涵盖了两个东西:任务本身,和硬件执行本体。语言只有任务,它的执行在硬件侧是一模一样的,不需要考虑硬件差异。但操作不是这样。
凤凰网科技: 能举个例子吗?
姜峣: 打乒乓球。规则是任务层面的规划,你需要按规则执行。但“打”这个动作要靠硬件——个子高矮、力量大小不同,打出来的花样就不一样。所以我说,没有最好的预训练模型,只有最适配硬件本体的模型,而且这个能力是自己长出来的。
我们做过实验:两个一模一样的夹爪,唯一区别是装配的松紧——一个松一点,一个紧一点。用VLA去训练,效果看起来都好,但两个模型的参数差了很多。你把预训练好的第一个模型硬塞给第二个,第二个表现得一塌糊涂。
这就能证明:硬件不同,就不能预训练,必须让它自己长出属于自己的一套逻辑。
凤凰网科技: 所以VLA有逻辑性缺陷?
姜峣: 对。它把任务和硬件执行耦合在一起了。任务可以自上而下学习,但硬件不行。再加上触觉信息的缺失,VLA不太可能有真正的泛化性。
很多人以为视觉看到就能激发动作——这是人类的幻觉。我们在哈佛做研究时就发现,小孩看到东西并不会做,他会去探索、去试。试的过程是触觉先接触,然后刺激肌肉动作,视觉在旁边一直看,看多了才映射起来。操作底层是由触觉先行的。
如果缺失了触觉支撑,视觉只是形似神不似。就像现在AI做分拣,你会发现手会莫名其妙地动一下、扶一下眼镜——这是因为数据里人有这个动作,机器人不理解,只是模仿。如果它有触觉,就知道这种小动作对物理分拣没有任何作用。

“万有引力里没有任何运动参数,却支配了所有运动”
凤凰网科技: 那今年大家转向世界模型,你觉得能解决问题吗?
姜峣: 世界模型比VLA多了一个对物理世界的理解,可以帮助做预测性判断和规划。但有一点我们比较坚信:它假设能把真实物理世界仿得极其准确,而且迁移时没有任何偏差——这不太可能。
所有仿真里最难仿的就是接触行为。Berkeley有一个做操作的知名学者,在一个国际特刊上说过一句话:我在桌上随便推一下一支笔,这支笔的运动轨迹,比预测几万光年之外星球的运动还要难。因为接触行为太复杂了。
凤凰网科技: 所以仿真器有天花板?
姜峣: 仿真器一定受限于现有学科理论的最好水平。它只是一个引擎化的算法,现在最好的仿真技术做不了的事——比如力学模型都解释不了的东西——仿真器凭什么能仿出来?
世界模型可以让任务规划做得更好,但无法取代硬件的执行。仿真里仿得很好,但硬件参数、阻力是多少?表面摩擦系数是多少?不交互绝对不知道。操作一定是在实践中学习,脱离实践就是纸上谈兵。
凤凰网科技: 那是不是可以这样理解:基本模型加上触觉能力,更接近一个灵活的手?
姜峣: 大家把大脑、小脑、快慢系统分开,这个思路是对的——任务规划侧和执行侧分开。但分开只是第一步,很多人分开后还是没有脱离自上而下的做法。
我们要改变的是:小脑管的执行侧,必须自下而上。这是很大的区别。
我们不做大脑。大脑负责任务理解、环境感知、决策,这非常难,也不是我们的强项。我们的强项是:你规划完了要去执行,你让我把水递给你,你不用管我的手怎么使劲、怎么动作,我来做。从定向反射到探索反射到抓握反射,我把这件事做好。大脑就可以专注做自己的训练。

图|机器人抓取技能展示:气球拉扯
凤凰网科技: 所以你们和做大脑的团队是合作关系?
姜峣: 对,双向奔赴。我给你一个非常好的操作执行系统,你给我一个非常好的任务规划系统,最后融合。就像把一个小孩放在房间里,他可以自己抓东西、装东西,但他不知道怎么叠衣服——因为他不知道规则。所以一定是上下配合。
凤凰网科技: 本能背后也是一套算法吗?
姜峣:我尽量讲得通俗一点。现在主流做法是:把输入和输出动作直接关联,把动作数据直接喂给机器人去学习。但我觉得动作不能这么干——动作太多了。抓一个东西,有太多种方式。
我举一个例子,虽然有点拔高,但非常形象:万有引力。
在牛顿之前,人们发现了大量现象——东西往下掉、行星运动规律等等。行为非常多。但牛顿告诉你,这些都源于一个万有引力,公式里没有任何运动参数。万有引力不描述运动,却支配了所有运动。
凤凰网科技: 这个和你们的算法有什么关系?
姜峣: 现在做机器人训练,很多人直接拟合运动数据,直接喂给模型。能不能训出“万有引力”?也许数据量足够大可以。但万有引力不是规则——规则是直接把两个东西关联起来描述。万有引力是底层逻辑,你不管怎么动,都会受到它的支配。
本能就是这样。它不描述信息感知和肌肉动作之间的因果关系。疼是本能,但你怎么往后退——有人快有人慢——这是行为。行为有各种方式,本能只有一个。
抓东西的本能就一个:滑移的感觉。当物体在手上滑动,这个信号给大脑一个本能反馈,它是一个期望——你一旦想把东西拽走,我的手就会加力;如果你不加力了,我就慢慢松开。期望在支配行为,行为可以非常多元,但万变不离其宗。
凤凰网科技: 所以本能是白盒,行为是黑盒?
姜峣: 对。我们做过一个很有意思的实验:让机器人去抓桌上的一张身份证。人怎么抓?肯定把它从桌面上抠起来。但我们的夹爪没有大拇指,肯定抠不起来,手指又比较粗。结果它初始阶段试了几次不行,但后来竟然把身份证翘起来,然后夹住。这让我们很震撼——人不会这么干,因为人的硬件结构决定了有更好的方式。但机器人只能这么干,它的物理结构决定了它别无选择。
这让我意识到:没有最好的操作模型,只有最适配的操作模型。本能催生出涌现行为,就像小孩你不知道他会怎么搞,但背后的逻辑是清晰的。我们不应该约束机器人的行为,而是要赋予它本能,让它在各种尝试中自己找出路。
凤凰网科技: 那手感到底是什么?老师傅总说“手感好”。
姜峣: 手感就是那个期望。它已经刻到肌肉里面去了。我们要做的,就是把这种期望赋予机器人。当然没法完全复制生物神经的过程,只能用机器人的语言去实现。
这也是为什么我们花了七年时间做触觉传感器。我们要获取接触界面的分布力、变形、滑移,物体的形貌、软硬、材质、纹理、摩擦系数、质量、质心,还有环境里的接触位置、刚度、阻抗、扰动。全部获取。没有这些信息,就没有相应的本能。
可以毫不夸张地说,面向操作这个领域,我们有全球最丰富、最完备的触觉信息。

图|机器人抓取技能展示:气球越障
有了这些信息,定向反射、探索反射、抓握反射就能被满足。机器人就可以涌现出自己的行为,具备探索能力,然后跟真实物理世界开始交互——不是为了交互而交互,而是为了让期望收敛。慢慢就可以学习了。这就是我们整个的逻辑。

“先在一个点上超越人类”
凤凰网科技: 你们的产品规划是什么?
姜峣: 任务分两个层面的复杂度:跨任务的泛化(比如在家庭里收拾各种东西),和单任务做到极致(比如抓取)。大家往往忽略了后者——抓东西看似简单,但要把抓取能力做到比人好,非常难。
我们要求:对任意未见过的物体,不管轻重、软硬、易碎还是形状复杂,都能抓得很好,能抵抗扰动,能适应不同的手,而且越做越熟练。
我们的切入点就是想哪怕在抓取这一个点上,能做到通过图灵测试——人干和机器人干一模一样好——这就够了。我不是一上来就追求通用的操作能力,那太难了。自然语言、图像识别、L5自动驾驶都还没到那一步,操作的信息模态更多、还有本体差异,怎么可能一下子超越?
凤凰网科技: 为什么先做两指?
姜峣: 我需要做闭环。操作能力强不强不是我说了算,是用户说了算。我们不做大脑,所以客户不能是家用——家用对大脑要求太高了。工业场景不一样,流水线已经把工位切分好了,工人到这儿不用思考,就干这一件事。
工厂里那么多操作工在干什么?物体变来变去、环境变来变去、扰动变来变去。我们调研发现,两指可以完成百分之八九十的任务。
最重要的是零部署成本——用户希望投入的精力比回报小得多。一个新产品让人捣鼓半天才能用,换个东西还要调,用户受不了。我们就解决这个问题:一上来就能用,而且越来越好。
凤凰网科技: 什么时候发现可以商用了?
姜峣: 2018年我就在实验室提了“三位一体”的发展模式:理论研究、产品研发、产业落地必须同步。我们做触觉传感器,不是发论文用的,是要让大家用着没意见。2020年到2024年,大家意见特别多——一会儿漂移、一会儿崩掉。到了2025年,内部终于没意见了,可以用了。
但一开始走了弯路。我直奔汽车行业,结果傻眼了——节拍太快,一分钟80到120个,0.5秒就要完成一次动作,这非机械化不可。而且汽车利润太薄,主机厂都不赚钱,怎么可能给你更多的利润空间?
凤凰网科技: 后来怎么找到方向的?
姜峣: 机缘巧合,我们的业务负责人找了一个化妆品客户。我一开始其实不太了解这个行业。去了才发现很震惊:化妆品产品种类上百种,换产非常频繁。产线已经自动化了,但每次换产都要调,无穷无尽地调——不是跑起来效率不够,而是每隔几周就要换一次产,一换就停产。
我们上去一试,老板一下子觉得这就是他需要的。我们说效率开始可能会慢一点,他说没问题,两台抵一个人就行。汽车工厂是能用一台绝不用两台。
后来我们打开思路,开始找快消品。有个香薰市场,也是千亿级别的市场,里面最简单的就是扶正灯芯——非常软,粗细还不一样,力大一点就拔出来,力小一点拽不动。这个非触觉本能系统不可。一条线七八百人在干这个事。

“创业是唯一的路”
凤凰网科技: 如果投资人问你们的技术壁垒是什么,你怎么回答?
姜峣: 抛开投资角度,纯技术层面讲两个。
第一个瓶颈并不是技术,是信念——操作到底有没有本能?很多人觉得这是胡扯。对我们来说,走这条路的人能不能有这个信念,本身就是门槛。
第二,本能怎么构建?本能如果是无穷多,那就等于没用。我们对大量的人类操作行为进行了分析,总结了三种:定向反射(看到东西手靠过去)、探索反射(关灯也能摸)、抓握反射(执行)。后来发现所有任务都可以拆解成这三个。我们花了八年做这件事。
凤凰网科技: 数据问题你们怎么解决?
姜峣: 我们颠覆了数据的获取和使用方式。第一层不需要数据——冷启动靠本能。但数据恰恰很重要,只不过我们让机器人先跑起来,在真实物理世界里交互,所有交互数据都是宝贵的。最好的仿真器不是你开发的,是真实物理世界。
现在最难的是:如何把触觉底层数据跟视觉做对齐,然后大量训练形成技能。我们的代价最小,因为我们已经让机器人跑起来了。就像自动驾驶先把车卖出去,在用户那边采数据做闭环——我们也是,先让产品能用,然后出货越多、数据越多。
2025年之前很多投资人找我,我只讲触觉的故事,不讲操作本能——因为大家很难理解。去年也只讲了触觉,按触觉领域看,我们已经是第一轮估值最大、融资最多的。但比起具身智能那些公司,我们很便宜。
今年上半年我低估了产业的爆发。后面大部分精力,我要做到每个头部领域里,十家有九家用我们的产品——这个壁垒才是真正的核心。
凤凰网科技: 投资人最担心什么?
姜峣: 技术层面之外,最担心的是:99个人往这边走,你往那边走,你的生态怎么建?这确实是个挑战。
凤凰网科技: 你从学校出来创业,最大的动力是什么?
姜峣: 在学校的模式下,很多时候是没法快速迭代了。举个例子,以前做机器人最好的学校,一夜之间就被宇树这样的市场化企业超越了——人家一年出货5000到1万台,你三年做一台样机,怎么比?
我们需要快速出货,在应用侧采数据做闭环。当时纠结了很久,但后来意识到:如果不创业,可能用不了三四年,这件事就不再属于我们了。技术没有绝对的瓶颈门槛,只有先发优势。我们做了八年多,但这个优势不可能一直持续。
凤凰网科技: 那8个博士为什么愿意跟着你?
姜峣: 为了吸引一个清华第一名,我花了一年半时间。最后我跟他说:你现在想想,做自然语言、做人形机器人控制最好的公司,你能想起哪家高校?他想半天想不起来,能想到的全是公司。我说做操作也是,如果你认可本能驱动,橡木果就是你最好的选择。你在这儿可以发最好的论文,去其他地方不可能。
这些人本来都可以留校、去大厂,但大家比较坚定地走了这条路。
凤凰网科技: 创业这半年感觉怎么样?
姜峣: 感觉过了五年。所有你想干、不想干的事,全得干。在学校只要想科研就行,创业以后背负了太多期待——投资人有期待,8个博士跟着你,你拿什么回报他们?
但比较好的是速度上来了。我以前社恐,不愿意抛头露面,但现在时代不一样了。乔布斯的书我看了两遍,他的产品理念对我们影响很大——最伟大的公司要做最伟大的产品。
橡木果可能不会一直存在,但如果最后能留下最好的具身操作系统、最好的指尖触觉、最好的操作系统,那就够了。

图|机器人抓取技能展示:喂关东煮
凤凰网科技: 你坚持了八年,最困难的时候是什么?
姜峣: 就是大家都不认你的时候。你在讲本能,别人都在走数据驱动、非常火,你这么弱的声音凭什么?而且你还没拿出闭环结果——如果能拿出,那就不叫风险投资了,叫确定性投资。
但我相信操作的本能存在,因为人存在本身就有它的合理性和必然性。你想要通用操作能力,又以人为对象,为什么不学人?为什么不遵守这个基本规律?
我愿意花10年、20年、30年,一直坚定地沿着这条技术路径走下去。这是我们认定了的事。