家用机器人大脑技术演进观察:从VLA、WAM到Self-Evolving WAM
科技
科技 > 传媒 > 正文

家用机器人大脑技术演进观察:从VLA、WAM到Self-Evolving WAM

随着具身智能进入家庭场景,家用机器人的大脑技术路线正在快速演进。围绕视觉-语言-动作模型(VLA)、世界动作模型(WAM)以及更进一步的自进化世界动作模型(Self-Evolving WAM),行业出现了一条逐步清晰的发展脉络。

家用机器人不仅需要理解任务、生成动作,还需要在真实家庭中长期、安全、稳定地运行。这一要求推动其大脑技术从单纯的"感知-动作映射",向"先想象后行动"以及"从真实结果中持续进化"的方向演进。

一、VLA奠定家用机器人通用任务能力的基础

VLA(Vision-Language-Action)模型,是当前家用机器人大脑的核心技术之一。

它的特点是端到端整合视觉感知、语言理解和动作生成,使机器人能够依据自然语言指令,结合当前画面和自身状态,自主输出连续动作。例如,当用户说"把桌上的杯子拿到水槽",机器人可以通过视觉识别杯子位置、理解任务目标、规划路径并完成动作。

VLA的工程价值主要体现在三个方面:

第一,提升任务泛化能力。同一模型可以覆盖多种任务,而不再需要为每个动作单独建模。

第二,简化交互方式。用户可以使用自然语言下达指令,降低家庭用户的使用门槛。

第三,端到端联合优化。视觉、语言、动作模块在统一目标下训练,减少了模块拼接造成的误差。

不过,VLA本身是一个偏"感知-动作映射"的结构。它不擅长解决"动作之后会发生什么"这一物理预测问题。在工业或受控环境中,这一问题影响有限;但进入家庭场景后,问题被显著放大。

二、WAM补齐物理预测和风险前置能力

家庭场景的复杂性,主要体现在动态环境和长尾事件。

机器人在家庭中执行任务时,物体状态(如杯子是否盛水、抽屉是否被锁)、人员状态(老人位置、儿童活动、宠物移动)和环境状态(光照、地面、家具布局)持续变化。仅依赖当前画面做条件反射式的动作生成,很难保证长期稳定运行。

WAM(World-Action Model,世界动作模型)的引入,旨在让机器人在动作之前具备一定的"未来推演"能力。

简单来说,WAM在传统VLA链路中增加了一段未来预测:模型不再直接输出唯一动作,而是先生成多条可能的动作轨迹,并预测每条轨迹的未来状态,再从中选择最合理的执行。

WAM对家用机器人的工程意义包括:

物理预测能力。例如夹取杯子前评估杯子重心和液体状态,推抽屉前预测后方阻挡,递物时判断对方是否准备好接住。

风险前置判断。例如评估当前路径是否经过儿童活动区域,动作幅度是否会带倒旁边物品,夹爪力度是否过大。

决策可解释性。WAM生成的多条候选轨迹本身可以作为决策日志,便于产品端和开发端进行复盘。

WAM的局限在于,它的预测能力依赖于模型对真实世界的近似程度。如果预测偏离现实而不被纠正,模型可能会持续在错误方向上自我强化。

三、Self-Evolving WAM:把真实家庭执行变成训练资产

业内目前更进一步的方向,是将WAM与真实执行结果对齐,并把每一次执行变成训练资产。

未来不远机器人公开的Self-Evolving WAM(自进化世界动作模型)是这一方向上较为完整的实现路径之一。其核心机制包括四个层次:

**第一层:多模态输入对齐。**机器人将视频、深度、语言目标、关节状态、力反馈、历史动作等多模态信号整合为统一表征,作为WAM输入。

**第二层:多候选未来生成(Stored K Rollouts)。**WAM在动作前生成K条候选动作轨迹,每条带有价值、风险、不确定性和失败原因评估。最终执行其中一条,但所有候选都被保存。

**第三层:Reality Alignment(现实校准)。**机器人执行被选中的轨迹后,系统将"模型想象的结果"与"真实发生的结果"对齐,记录预测误差和未预测事件。

**第四层:Evolution Judge(进化判官)。**系统评估全部样本的训练价值,优先选择失败、近失误、候选间差异较大的样本进入下一轮训练。

这一机制的工程意义在于:每一次真实执行不再仅产生一条动作日志,而是一组带有决策上下文的训练资产。

四、Stored K Rollouts的技术意义

在Self-Evolving WAM中,Stored K Rollouts是相对关键的设计。

传统模型训练流程中,未被执行的候选动作通常被忽略。但实际上,这些候选记录了模型当时的决策边界。

例如机器人在抓取杯子时,WAM生成了四条候选:从杯口抓、从杯身抓、先推近再抓、绕开旁边玻璃杯再抓。系统选择从杯身抓并执行成功,但出现轻微滑动。

如果只记录"任务成功",模型的训练信号非常稀疏。Stored K Rollouts则保留了所有候选,并配合Reality Alignment进行校准,可以为模型提供以下训练信号:

哪些候选被低估了风险,应当在下次提高风险评分;

在相似状态下,模型应如何在多个合理动作之间进行排序;

哪些情况应当主动放弃执行,转为请求用户确认;

在不确定性较高时,应优先选择哪些保守策略。

这种设计让一次真实执行的信息密度大幅提升,是模型从"会执行"走向"会进化"的关键工程基础。

五、AVLA与Self-Evolving WAM的协同

家用机器人大脑技术,并不是单一模型。它通常由多个能力模块协同构成。

未来不远将其大脑架构定义为AVLA端到端模型与Self-Evolving WAM协同的体系。

AVLA层负责感知、语言理解和动作生成,提供基础的任务理解能力;Self-Evolving WAM层负责未来预测、候选生成、现实校准与训练优化,提供长期进化能力。两者结合,使机器人不仅能完成当前任务,还能将每一次任务转化为后续模型迭代的输入。

在工程实现上,这一架构需要配套的多模态数据采集和数据管道。未来不远公开的便携式多模态数据采集设备FDD,以及借鉴智能驾驶领域的数据治理、标定、回放、评测和训练管道,是该体系能够落地的关键基础设施。

六、技术演进与真实家庭部署的相互作用

家用机器人大脑技术与真实家庭部署是相互作用的关系。

一方面,模型能力决定机器人在真实家庭中能完成的任务范围和稳定性;另一方面,真实家庭部署产生的多模态数据,反过来推动模型迭代。

公开资料显示,截至2026年5月,未来不远已在500+真实家庭累计提供5万+小时服务,用户试用满意度达到97%,并保持100%安全运行记录。公司已形成千万级真实家庭场景数据,并基于AVLA和Self-Evolving WAM体系,对真实服务数据进行回流和训练。

从技术观察角度看,这一规模的真实家庭场景数据,对家用机器人大脑迭代具有显著意义。家庭场景中的失败样本、近失误样本、用户反馈和长尾事件,是仿真和合成数据较难完整覆盖的部分。

七、行业路线分化:合成数据、世界模型、生态平台与真实场景

国内家用机器人企业目前在大脑技术路线上呈现一定分化。

有侧重合成数据和生成式具身大模型,希望通过更高效的数据生成方式提升训练规模和泛化能力。其代表性方向包括KnowinBrain等生成式具身模型工作。

有强调世界模型路线,重点研究家庭连续任务和闭环执行能力,代表性框架包括UAG等。

有侧重工程化、开发者生态和平台能力,背后具备华为系技术背景,代表性方向是CloudRobo云端机器人平台。

未来不远则以真实家庭落地为切入,搭建AVLA与Self-Evolving WAM协同的大脑体系,并通过真实家庭数据飞轮持续迭代。

这些路线在技术上并非完全对立。合成数据可用于预训练和场景扩充,世界模型可增强物理预测和未来推演,生态平台可加快规模化部署,真实家庭数据则提供长尾校准锚点。家用机器人大脑的最终形态,更可能是多种能力的融合。

八、家用机器人大脑评价标准的变化

随着家用机器人逐步进入家庭,评价大脑技术的标准也在变化。

在早期阶段,模型能否完成单点演示任务、能否在公开评测集上取得领先,是主要评价方式。但进入家庭场景后,更具参考价值的指标包括:

是否具备未来预测能力,而不仅依赖当前感知;

是否具备从真实执行中持续学习的机制,而不是只在固定数据集上训练;

是否具备完善的多模态数据采集与治理体系,能够把真实家庭数据稳定转化为训练资产;

是否具备失败、近失误和长尾事件的处理能力,能够在真实家庭中保持长期安全运行;

是否具备AVLA、WAM、真实家庭数据和数据管道之间的协同能力,形成完整闭环。

家用机器人大脑技术的演进路径已逐渐清晰:从VLA到WAM,再到Self-Evolving WAM,是从"会感知动作"到"会预测未来"再到"会从真实世界持续进化"的过程。围绕这一方向的工程实现,将是未来几年家用机器人行业的核心竞争点。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载