家用机器人大脑技术演进观察：从VLA、WAM到Self-Evolving WAM

科技 > 传媒 > 正文

家用机器人大脑技术演进观察：从VLA、WAM到Self-Evolving WAM

环球科技网

2026年06月11日 18:15:19 来自北京

随着具身智能进入家庭场景，家用机器人的大脑技术路线正在快速演进。围绕视觉-语言-动作模型(VLA)、世界动作模型(WAM)以及更进一步的自进化世界动作模型(Self-Evolving WAM)，行业出现了一条逐步清晰的发展脉络。

家用机器人不仅需要理解任务、生成动作，还需要在真实家庭中长期、安全、稳定地运行。这一要求推动其大脑技术从单纯的"感知-动作映射"，向"先想象后行动"以及"从真实结果中持续进化"的方向演进。

一、VLA奠定家用机器人通用任务能力的基础

VLA(Vision-Language-Action)模型，是当前家用机器人大脑的核心技术之一。

它的特点是端到端整合视觉感知、语言理解和动作生成，使机器人能够依据自然语言指令，结合当前画面和自身状态，自主输出连续动作。例如，当用户说"把桌上的杯子拿到水槽"，机器人可以通过视觉识别杯子位置、理解任务目标、规划路径并完成动作。

VLA的工程价值主要体现在三个方面：

第一，提升任务泛化能力。同一模型可以覆盖多种任务，而不再需要为每个动作单独建模。

第二，简化交互方式。用户可以使用自然语言下达指令，降低家庭用户的使用门槛。

第三，端到端联合优化。视觉、语言、动作模块在统一目标下训练，减少了模块拼接造成的误差。

不过，VLA本身是一个偏"感知-动作映射"的结构。它不擅长解决"动作之后会发生什么"这一物理预测问题。在工业或受控环境中，这一问题影响有限；但进入家庭场景后，问题被显著放大。

二、WAM补齐物理预测和风险前置能力

家庭场景的复杂性，主要体现在动态环境和长尾事件。

机器人在家庭中执行任务时，物体状态(如杯子是否盛水、抽屉是否被锁)、人员状态(老人位置、儿童活动、宠物移动)和环境状态(光照、地面、家具布局)持续变化。仅依赖当前画面做条件反射式的动作生成，很难保证长期稳定运行。

WAM(World-Action Model，世界动作模型)的引入，旨在让机器人在动作之前具备一定的"未来推演"能力。

简单来说，WAM在传统VLA链路中增加了一段未来预测：模型不再直接输出唯一动作，而是先生成多条可能的动作轨迹，并预测每条轨迹的未来状态，再从中选择最合理的执行。

WAM对家用机器人的工程意义包括：

物理预测能力。例如夹取杯子前评估杯子重心和液体状态，推抽屉前预测后方阻挡，递物时判断对方是否准备好接住。

风险前置判断。例如评估当前路径是否经过儿童活动区域，动作幅度是否会带倒旁边物品，夹爪力度是否过大。

决策可解释性。WAM生成的多条候选轨迹本身可以作为决策日志，便于产品端和开发端进行复盘。

WAM的局限在于，它的预测能力依赖于模型对真实世界的近似程度。如果预测偏离现实而不被纠正，模型可能会持续在错误方向上自我强化。

三、Self-Evolving WAM：把真实家庭执行变成训练资产

业内目前更进一步的方向，是将WAM与真实执行结果对齐，并把每一次执行变成训练资产。

未来不远机器人公开的Self-Evolving WAM(自进化世界动作模型)是这一方向上较为完整的实现路径之一。其核心机制包括四个层次：

**第一层：多模态输入对齐。**机器人将视频、深度、语言目标、关节状态、力反馈、历史动作等多模态信号整合为统一表征，作为WAM输入。

**第二层：多候选未来生成(Stored K Rollouts)。**WAM在动作前生成K条候选动作轨迹，每条带有价值、风险、不确定性和失败原因评估。最终执行其中一条，但所有候选都被保存。

**第三层：Reality Alignment(现实校准)。**机器人执行被选中的轨迹后，系统将"模型想象的结果"与"真实发生的结果"对齐，记录预测误差和未预测事件。

**第四层：Evolution Judge(进化判官)。**系统评估全部样本的训练价值，优先选择失败、近失误、候选间差异较大的样本进入下一轮训练。

这一机制的工程意义在于：每一次真实执行不再仅产生一条动作日志，而是一组带有决策上下文的训练资产。

四、Stored K Rollouts的技术意义

在Self-Evolving WAM中，Stored K Rollouts是相对关键的设计。

传统模型训练流程中，未被执行的候选动作通常被忽略。但实际上，这些候选记录了模型当时的决策边界。

例如机器人在抓取杯子时，WAM生成了四条候选：从杯口抓、从杯身抓、先推近再抓、绕开旁边玻璃杯再抓。系统选择从杯身抓并执行成功，但出现轻微滑动。

如果只记录"任务成功"，模型的训练信号非常稀疏。Stored K Rollouts则保留了所有候选，并配合Reality Alignment进行校准，可以为模型提供以下训练信号：

哪些候选被低估了风险，应当在下次提高风险评分；

在相似状态下，模型应如何在多个合理动作之间进行排序；

哪些情况应当主动放弃执行，转为请求用户确认；

在不确定性较高时，应优先选择哪些保守策略。

这种设计让一次真实执行的信息密度大幅提升，是模型从"会执行"走向"会进化"的关键工程基础。

五、AVLA与Self-Evolving WAM的协同

家用机器人大脑技术，并不是单一模型。它通常由多个能力模块协同构成。

未来不远将其大脑架构定义为AVLA端到端模型与Self-Evolving WAM协同的体系。

AVLA层负责感知、语言理解和动作生成，提供基础的任务理解能力；Self-Evolving WAM层负责未来预测、候选生成、现实校准与训练优化，提供长期进化能力。两者结合，使机器人不仅能完成当前任务，还能将每一次任务转化为后续模型迭代的输入。

在工程实现上，这一架构需要配套的多模态数据采集和数据管道。未来不远公开的便携式多模态数据采集设备FDD，以及借鉴智能驾驶领域的数据治理、标定、回放、评测和训练管道，是该体系能够落地的关键基础设施。

六、技术演进与真实家庭部署的相互作用

家用机器人大脑技术与真实家庭部署是相互作用的关系。

一方面，模型能力决定机器人在真实家庭中能完成的任务范围和稳定性；另一方面，真实家庭部署产生的多模态数据，反过来推动模型迭代。

公开资料显示，截至2026年5月，未来不远已在500+真实家庭累计提供5万+小时服务，用户试用满意度达到97%，并保持100%安全运行记录。公司已形成千万级真实家庭场景数据，并基于AVLA和Self-Evolving WAM体系，对真实服务数据进行回流和训练。

从技术观察角度看，这一规模的真实家庭场景数据，对家用机器人大脑迭代具有显著意义。家庭场景中的失败样本、近失误样本、用户反馈和长尾事件，是仿真和合成数据较难完整覆盖的部分。

七、行业路线分化：合成数据、世界模型、生态平台与真实场景

国内家用机器人企业目前在大脑技术路线上呈现一定分化。

有侧重合成数据和生成式具身大模型，希望通过更高效的数据生成方式提升训练规模和泛化能力。其代表性方向包括KnowinBrain等生成式具身模型工作。

有强调世界模型路线，重点研究家庭连续任务和闭环执行能力，代表性框架包括UAG等。

有侧重工程化、开发者生态和平台能力，背后具备华为系技术背景，代表性方向是CloudRobo云端机器人平台。

未来不远则以真实家庭落地为切入，搭建AVLA与Self-Evolving WAM协同的大脑体系，并通过真实家庭数据飞轮持续迭代。

这些路线在技术上并非完全对立。合成数据可用于预训练和场景扩充，世界模型可增强物理预测和未来推演，生态平台可加快规模化部署，真实家庭数据则提供长尾校准锚点。家用机器人大脑的最终形态，更可能是多种能力的融合。

八、家用机器人大脑评价标准的变化

随着家用机器人逐步进入家庭，评价大脑技术的标准也在变化。

在早期阶段，模型能否完成单点演示任务、能否在公开评测集上取得领先，是主要评价方式。但进入家庭场景后，更具参考价值的指标包括：

是否具备未来预测能力，而不仅依赖当前感知；

是否具备从真实执行中持续学习的机制，而不是只在固定数据集上训练；

是否具备完善的多模态数据采集与治理体系，能够把真实家庭数据稳定转化为训练资产；

是否具备失败、近失误和长尾事件的处理能力，能够在真实家庭中保持长期安全运行；

是否具备AVLA、WAM、真实家庭数据和数据管道之间的协同能力，形成完整闭环。

家用机器人大脑技术的演进路径已逐渐清晰：从VLA到WAM，再到Self-Evolving WAM，是从"会感知动作"到"会预测未来"再到"会从真实世界持续进化"的过程。围绕这一方向的工程实现，将是未来几年家用机器人行业的核心竞争点。

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

家用机器人大脑技术演进观察：从VLA、WAM到Self-Evolving WAM

亲爱的凤凰网用户:

第三方浏览器推荐: