
【文/观察者网专栏作者 心智观察所】
2月8日晚八点,上海。200多台机器人在镁光灯下翩翩起舞,与演员黄晓明同台变魔术,和开心麻花的喜剧演员搭档演小品,还有一台名为“精灵·璇”的仿生机器人,用逼真到令人恍惚的面部表情唱了一首《未定义的关系》。这是由上海智元机器人主办的全球首个大型机器人晚会《机器人奇妙夜》,被网友戏称为“机器人春晚”。
机器人和黄晓明表演魔术
整场晚会通过美洲、中东、东南亚等地同步直播,50分钟的时长虽然不长,却创下了多个行业纪录:首个机器人小品、首个机器人魔术、首个人机共舞华尔兹。智元机器人首席运营官邱恒在演出后说了一句颇有分量的话——“这可能会是人类理解机器人能力的‘ChatGPT时刻’。”
这句话或许稍显大胆,但它折射出的行业自信并非没有来由。就在不久前,百度“文心Moment大会”的具身智能分论坛上,来自傅利叶、开普勒、加速进化、乐聚机器人和地瓜机器人的五位行业代表围坐一堂,对具身智能产业的现状与走向进行了一场坦率而深入的讨论。一场晚会与一次圆桌,一个在台前展示能力的极限,一个在幕后剖析产业的真实。
两者叠加在一起,恰好拼出了当下中国具身智能产业最完整的截面:技术正在加速成熟,商业化的轮廓隐约可见,但通往规模化落地的道路上,仍然横亘着数据匮乏、标准缺失和路线未定等层层关卡。
一台晚会能办成什么样,取决于机器人能做到什么程度。
以往的机器人表演,通常依赖预先编程或人为遥控,机器人充其量是一个执行单一指令的工具。但《机器人奇妙夜》试图证明的是,当200多台不同类型的机器人需要在同一个舞台上完成歌舞、小品、魔术、走秀等多种形态的演出时,老办法已经完全不够用了。
智元机器人的技术团队表示,这次晚会依靠的是具身智能的系统能力——从复杂运动控制到高精度群体协同,再到初步的情感表达——才实现了“舞台级系统智能”的标准。灵犀X2机器人在舞台上连续完成后空翻、前空翻、踢腿、侧空翻等一连串高难度动作;手语翻译机器人全程为听障观众提供无障碍服务;甚至有一台机器人复刻了12年前马年春晚“小彩旗”旋转整台晚会的经典画面。
更值得关注的是技术路径背后的平台能力。智元自研的“灵创”平台实现了零代码操作:用户无需编程基础,只需上传一段人类动作视频,就能完成从真人表演到机器人复刻的端到端转化。“灵心”平台则内置了三四十款风格各异的音色,还支持“音色复刻”——上传一段录音,机器人就能拥有相似的声音。
这些平台能力的意义,远不止于办一场晚会。智元合伙人姜青松直言,它们将加速机器人在文娱商演、门店接待等场景的高效落地。换言之,舞台只是第一站,平台化的技术底座才是通向更多应用场景的关键基础设施。
而首形科技带来的仿生机器人“精灵·璇”,则从另一个维度展示了具身智能的技术纵深。不同于追求更高关节自由度和更灵活运动能力的主流路线,首形科技将技术聚焦于“人脸”——自研的情绪基座系统CharacterMind,融合了语言、表情、语音、语境等多模态信息,让机器人不仅能听懂语言,更能“读懂”语言背后的情绪。高性能无刷微型电机还能精准控制眼角微蹙、嘴角轻扬等细腻的“微表情”。当技术的精度细化到面部肌肉的毫米级控制时,机器人与人类之间的交互界面正在被重新定义。
如果说《机器人奇妙夜》展示的是具身智能“能做什么”,那么“文心moment大会”的圆桌讨论则更多地在回答“该往哪走”和“走到了哪里”。在那场讨论中,五位行业代表对市场结构的判断高度一致:当前的具身智能市场,呈现出B端务实、C端想象的双轨格局。
B端市场的优势在于需求的确定性。工业场景的客户会明确提出量化的指标——连续工作8小时、负重20至30公斤、多少年收回成本。这种清晰的需求使技术落地有了精确的方向。开普勒在宝马工厂的焊接上下料场景、加速进化在教育科研领域的深耕、乐聚在政企展厅的应用部署,都是在确定需求下的精准交付。但另一面是定制化的沉重负担:不同工厂、不同工位的需求差异巨大,要求企业投入大量精力逐一适配。开普勒软件平台负责人詹犇提出的硬件解耦思路——根据场景灵活切换灵巧手、夹爪、足式、轮式——本质上就是试图用模块化的方式降低定制成本。
C端市场则是另一番景象。乐聚机器人合伙人王松回忆起2016年创业时的尴尬:观众看到35厘米高的机器人,上来就问“能洗衣服、拖地吗?”这份期待的落差至今仍有现实意义——即便是全尺寸的人形机器人,在家庭场景中的能力边界依然模糊。但圆桌嘉宾们不约而同地将康养和医疗视为C端的突破口。逻辑很清晰:老龄化社会的刚需、相对可控的场景、用户对辅助功能而非完美功能的宽容度,让这个领域成为具身智能走进家庭的最佳切入点。
傅利叶从康复领域起家的基因,某种程度上印证了这条路径的可行性。但正如王松提醒的那样,当前机器人的“小脑”(运动控制)和“大脑”(AI算法)能力,在家庭复杂场景下的安全性仍然不够可靠。
有趣的是,晚会之后上线的机器人租赁平台“擎天租”,似乎正在打通B端与C端之间的灰色地带。999元即可租一台“奇妙夜同款”机器人上门,用于情人节互动、生日派对、亲子活动、春节拜年等场景。擎天租的数据显示,春节前两周平台订单量环比增长约30%。这种轻量化、可复制的使用方式,正在让机器人从“围观对象”转变为节日消费和社交体验中的新选择。擎天租CEO李一言认为,这种模式是机器人走向C端、实现规模化应用的重要前提。
中国大陆具身智能产业发展里程碑事件(@心智观察所制图)
回到产业的底层逻辑。如果说两三年前,行业的关键词还是“端到端全栈自研”,那么到了2025年,“生态”已经成为绕不开的话题。傅利叶CEO办公室战略客户总监时晖的感慨颇能代表行业的心态转变:十年前做康复机器人时,没人谈生态,大家都在强调从头到尾自己搞定一切。但现在,产品开始成型,模块可拆解,商业化链路开始打通,生态建设的条件终于成熟了。
乐聚机器人合伙人王松一针见血地指出了核心原因:人形机器人是一个极其复杂的系统,涵盖结构、硬件、小脑、大脑到应用的全链条,没有一家公司能够独立完成所有环节。更关键的是,当前行业在最优构型、算法架构、操作系统标准上都尚未达成共识,整个产业仍处于“野蛮探索”的阶段。在这种背景下,闭门造车的风险远大于开放协同的成本。
地瓜机器人开发者社区总监徐国晟从芯片厂商的视角提供了另一个观察维度。他反复强调的“做好基建”,实际上是在为整个产业链降低门槛。一个560T算力的芯片交付给本体厂商后,对方的反馈往往是“在调,但进展很慢”。问题不在于算力不足,而在于从模型到端侧部署的链路太长、技术门槛太高。如果芯片厂商只卖芯片,本体厂商就必须从头“造轮子”,这种低效会严重拖累产业的整体发展速度。因此,芯片端主动提供算法适配、本体厂商开源软件框架、大模型平台寻求数据共享,这些信号共同表明,单打独斗的时代正在结束。
但开源并非灵丹妙药。詹犇提出的软件分层策略更具现实意义——面对能力强的高校团队,开放到电机层的底层API;面对应用集成商,提供运动、视觉的中层接口;面对展厅客户,只需要预设好的动作库。这种“因材施教”的开放策略,既保护了核心技术壁垒,又最大化了生态的包容性。加速进化开源的Booster James架构,也是在软件层面降低开发者的接入成本。这种有选择、有层次的开放,或许是比全面开源更适合当前阶段的中国路径。
如果说生态建设是产业的“面”,那么大模型与机器人的结合则是产业的“点”——也是当前最令人期待又最让人焦虑的技术议题。在文心moment的圆桌上,所有嘉宾谈到这个话题时态度都变得格外谨慎。王松的表述最为直白,当前大模型与机器人的结合仅仅停留在最上层,要么做简单的语音交互,要么做任务级的规划调度,与本体操作层的结合并不紧密。
这个判断点出了具身智能当前最大的技术鸿沟。大模型能告诉机器人“面前是一个苹果”,但如何削皮、如何抓取、下一步做什么,这些操作层的决策仍然无法由大模型直接完成。这不是模型能力的问题,而是数据和算法架构的双重制约。徐国晟用了一个形象的对比:大语言模型可以从互联网上获取海量文本数据进行训练,但具身智能的数据必须靠机器人在真实环境中一次次采集和标注。即便上海拥有国家机器人创新中心的异构机器人数据采集场、130台机器人持续工作,相比训练通用大模型所需的数据量,仍然是杯水车薪。
更棘手的是技术路线的不确定性。大模型领域经过数年探索,Transformer架构已成为事实标准。但在具身智能领域,大脑(感知决策)与小脑(运动控制)是分离还是融合?是走端到端的VLA路线,还是保持分段式架构?这些根本性问题仍在激烈争论之中。这也从侧面解释了为什么行业对“垂类小模型”寄予厚望——既然通用大模型短期内难以在操作层实现突破,那么在特定场景下用有限数据训练专用模型便成了更务实的选择。
开普勒与百度文心合作的工业焊接垂类小模型、加速进化在机器人足球场景的持续积累,都是这一思路的体现。
站在2025年初的时间节点上,如何评估具身智能的商业化阶段?从《机器人奇妙夜》和圆桌讨论中拼出的图景来看,答案或许是:刚刚翻过研发期的最后一页,正在书写工程化落地的第一章。
积极的信号确实越来越多。歌舞娱乐类机器人已初步实现稳定营收;机器人租赁模式开始跑通,有人愿意为机器人的服务付费;魔法原子、银河通用、宇树科技、松延动力四家公司接连官宣与央视马年春晚达成合作,机器人上台正在变成常态。智元自身也公布了涵盖讲解接待、文娱商演、工业智造、物流分拣、安防巡检、商用清洁、数采训练、科研教育等八类核心场景的定制化方案。加速进化的李章宇在圆桌上透露了一个值得关注的现象:已经有一部分人拿着机器人做租赁展演、进校园课程,并且实现了盈利。当商业的正向循环开始建立,产业的飞轮就有了转动的第一推力。
但冷静审视,制约因素同样清晰。在工业场景中,机器人解决物品泛化问题后效率可提升30%至90%,商业价值明确,但稳定性暂未达到工业级标准,距离大规模商业化普及仍有较长距离。行业在最优构型、操作系统标准、数据共享机制等基础层面尚未形成共识。大模型与机器人操作层的融合停留在浅层。数据匮乏的瓶颈远未突破。换句话说,当前的具身智能产业既不是“概念炒作”的泡沫期,也不是“万事俱备”的爆发前夜,而是处在从技术可行到工程可用的艰难爬坡阶段。
傅利叶的时晖给出了一个值得重视的时间判断:2025至2026年是推动生态建设的关键时期。原因有二:产品开始成型,模块可拆解;商业化链路开始打通,前端生态可以分层。这个窗口期可能只有两三年——抓住了,中国具身智能产业就有可能在全球竞争中占据先机;错过了,可能又要等待下一个周期。
从更长远的视角看,具身智能的终局图景是清晰的。时晖的判断值得认真对待:它会像物联网、互联网、AI一样,成为千行百业的基础设施。但通向这个终局的路径,大概率不是某个“iPhone时刻”式的单点爆发,而是逐步渗透、场景驱动的渐进过程。工厂里的搬运机器人、医院里的康复助手、展厅里的讲解员、商场里的互动伙伴,每一个场景的成熟都是在为最终的大规模普及铺路。今天的《机器人奇妙夜》本身或许就是这条路上的一个路标——它证明了具身智能的“舞台级”能力已经就位,接下来要做的是把这种能力从舞台搬到车间、搬到病房、搬到千家万户。
去年9月30日,智元机器人全国首家开放式具身智能体验中心在无锡正式开业
徐国晟在圆桌讨论中描绘了这样一个场景:“这个房间里会有很多具身机器人帮我们倒水、拍照、做会务。”这不再是科幻小说里的想象,而是可以看见路径的未来。但在那一天到来之前,产业需要的不是冲动和狂热,而是王松所说的“野蛮探索阶段”应有的清醒:保持开放心态、快速迭代试错、建立柔性供应链。
从《机器人奇妙夜》的灯光璀璨到圆桌论坛的冷静剖析,中国具身智能产业正站在一个微妙的临界点上。技术的锤子已经磨得足够锋利,但真正能敲开商业化大门的那颗钉子——稳定性、标准化、规模化数据——还需要整个行业耐心而坚定地去锻造。开放、协同、务实、耐心,或许正是这个阶段最需要的四个关键词。机器人走出实验室的前夜,黎明的曙光已经依稀可见。现在的问题不再是“能不能”,而是“怎么做”和“多快”。