【科研案例】基于距离场的人形机器人长时域交互通用框架

2026-05-06

在非结构化环境中，人形机器人需要像人类一样灵活应对多样化物体 —— 既能拾取不同尺寸的盒子，又能推动柜子、坐姿切换，还能在连续任务中自主衔接技能。然而，现有方法要么依赖固定动作参考，难以适配未知物体几何形状；要么局限于单一任务，无法实现长时域技能组合。为此，研究团队提出 LESSMIMIC 框架，以距离场（DF）为统一交互表示，通过三阶段训练流程，让单个策略具备几何泛化能力与长时域技能组合能力，无需动作参考即可完成复杂全身交互。

核心挑战：全身交互的三重核心障碍

人形机器人实现通用交互面临三大关键难题，制约着技术规模化应用。其一，几何依赖陷阱：传统方法将交互技能与特定物体形状、尺度强绑定，依赖预定义动作参考，面对未见过的物体时易失效；其二，技能割裂困境：不同交互任务（拾取、推动、坐姿）的观测与奖励设计各异，单一策略难以兼容，长时域任务中技能切换易中断；其三，交互表示缺陷：点云、体素等几何表示要么离散化丢失梯度信息，要么计算成本过高，无法满足实时接触 - rich 控制的需求。

现有技术要么受限于固定物体与任务，要么缺乏统一的交互表示，未能解决 “几何泛化 - 技能组合 - 高效表示” 的三重矛盾，难以实现通用的长时域全身交互。

核心框架：距离场驱动的通用交互解决方案

LESSMIMIC 以 “距离场统一表示 + 三阶段训练” 为核心，通过距离场捕捉几何交互本质，结合行为克隆、对抗性微调与视觉蒸馏，系统性突破上述挑战，实现几何泛化与长时域技能组合。

第一要素：距离场交互表示，解耦几何与技能

LESSMIMIC 采用距离场（DF）作为统一交互表示，从局部几何关系出发，摆脱对特定物体形状与动作参考的依赖。距离场为空间中每个点分配到物体表面的距离，其梯度直接编码表面法线方向，为接触控制提供关键几何线索。

在此基础上，框架提取四大核心交互特征：物体表面距离、表面梯度（法线方向）、法向速度（接近 / 远离物体的运动强度）、切向速度（沿物体表面的滑动轨迹）。这些特征构成的交互表示具有天然的几何不变性 —— 无论物体尺寸、形状如何变化，局部几何交互的核心模式保持一致，让策略学习 “交互的本质” 而非 “特定物体的动作”。

为捕捉交互的时间演化，框架将连续时间步的交互特征整合为历史序列，通过变分自编码器（VAE）编码为紧凑 latent 向量，既降低噪声干扰，又为策略提供完整的几何交互上下文。

第二要素：三阶段训练流程，兼顾稳定与泛化

框架通过 “交互技能预训练 - 判别式后训练 - 视觉 - 运动蒸馏” 三阶段训练，逐步提升策略的稳定性、泛化性与部署实用性。

阶段一：交互技能预训练，奠定基础能力

该阶段通过行为克隆（DAgger）初始化策略，解决物理可行性问题。首先由教师策略（基于 ResMimic）跟踪重定向的人类交互动作，生成物理上有效的训练数据 —— 教师策略通过残差模块补偿动态不匹配，确保示范动作既符合人体运动规律，又满足机器人物理约束。

学生策略（目标策略）仅以距离场 latent 向量、机器人本体感受（关节位置 / 速度）、根轨迹指令为输入，完全不依赖动作参考，通过模仿教师动作完成初始化。这种训练方式让策略在起步阶段就建立 “几何交互 - 动作输出” 的映射，避免无意义探索。

阶段二：判别式后训练，提升泛化能力

为突破训练数据的几何局限，该阶段在随机化环境中通过强化学习微调策略。环境随机化涵盖物体尺度（0.4 倍至 1.6 倍）、形状（立方体、圆柱体等）、物理属性（质量、摩擦系数），迫使策略适应多样化几何条件。

核心创新在于引入对抗性交互先验（AIP）：训练一个判别器，区分策略在新物体上生成的交互 latent 向量与预训练阶段的高质量交互向量。策略在强化学习中不仅追求任务完成（如根轨迹跟踪、物体操控），还需生成判别器认可的 “有效交互模式”，从而习得跨几何的通用交互规则。同时，结合对抗性运动先验（AMP）保证动作自然性，避免物理不合理姿态。

阶段三：视觉 - 运动蒸馏，适配真实部署

为摆脱对运动捕捉（MoCap）设备的依赖，框架将 MoCap 驱动的策略蒸馏为纯视觉策略。视觉策略以机器人机载深度相机的图像序列为输入，通过 CNN 编码器学习从视觉信息中提取几何交互特征，与预训练阶段的距离场 latent 向量对齐。

蒸馏过程采用 DAgger 风格，冻结预训练策略作为教师，引导视觉策略学习 —— 通过领域随机化（相机抖动、深度噪声、光照变化）增强鲁棒性，确保纯视觉输入下仍能准确感知几何交互关系，满足真实场景部署需求。

第三要素：统一策略架构，支持长时域技能组合

策略采用 Transformer 架构，擅长捕捉长序列依赖，能够自然衔接不同交互技能。由于所有任务共享同一距离场表示与观测空间，策略无需额外的任务切换机制：当环境几何关系变化时（如从 “推柜子” 切换到 “拾盒子”），距离场 latent 向量会自动反映交互模式的改变，策略通过持续感知几何变化，实现技能的隐式切换。

这种设计让单个策略能够处理连续的异质任务序列，无需环境重置或人工干预，为长时域交互奠定基础。

实验验证：泛化与长时域能力双重突破

研究团队在模拟环境与真实人形机器人平台上进行全面验证，涵盖拾取、坐姿切换、推动、搬运四大任务，充分证明框架的有效性。

核心性能表现

在几何泛化方面，LESSMIMIC 展现出极强的适应性：面对 0.4 倍至 1.6 倍尺度的物体，拾取任务成功率保持 80%-100%，坐姿切换任务成功率稳定在 60% 以上，而传统参考型方法在尺度偏离训练分布后成功率骤降至 0%-40%。真实世界中，策略能成功拾取训练中未见过的足球（球形物体），并在 12 厘米与 46 厘米两种高度的椅子上完成坐姿切换，验证了形状与尺度泛化能力。

在长时域技能组合方面，单个策略能自主完成 5 个随机排序的异质任务（如 “推柜子 - 拾盒子 - 搬运 - 坐姿切换 - 推动”），成功率达 62.1%，即使扩展到 40 个连续任务，仍保持 2.1% 的可行性 —— 而所有 ablation 变体（移除 AIP、随机化等组件）在 10 个任务后即完全失效，凸显核心组件的必要性。

在视觉部署方面，纯视觉策略的性能虽略低于 MoCap 驱动版本，但在拾取任务中仍保持 63.7%-99.7% 的成功率，且能应对深度噪声、相机抖动等真实场景干扰，满足无 MoCap 设备的部署需求。

关键组件有效性

距离场表示：移除距离场特征后，策略无法泛化到新物体，尺度偏离训练分布时成功率接近 0；
对抗性交互先验（AIP）：无 AIP 的策略在新物体上交互模式混乱，接触率下降 50% 以上；
几何随机化：关闭随机化后，策略仅能处理训练过的物体尺度与形状，泛化能力完全丧失；
Transformer 架构：替换为 MLP 后，长时域任务中技能切换频繁失败，5 个任务序列成功率降至 1.7%。

应用价值：人形机器人交互的通用范式

LESSMIMIC 的创新不仅在于技术突破，更在于构建了 “几何驱动 - 通用策略 - 长时域执行” 的交互范式，核心价值体现在三方面：

其一，几何泛化革命：首次实现单个策略对 0.4 倍至 1.6 倍尺度、多种形状物体的稳定交互，摆脱对特定物体的依赖，大幅降低技能开发成本；其二，长时域能力突破：支持 40 个连续异质任务的自主执行，为家庭服务、工业辅助等复杂场景提供可能；其三，部署门槛降低：纯视觉版本无需 MoCap 设备，仅通过机载深度相机即可部署，推动人形机器人从实验室走向真实环境。

项目地址：https://lessmimic.github.io

开源地址：https://github.com/Yutang-Lin/LessMimic