【科研案例】基于距离场的人形机器人长时域交互通用框架
2026-05-06

在非结构化环境中,人形机器人需要像人类一样灵活应对多样化物体 —— 既能拾取不同尺寸的盒子,又能推动柜子、坐姿切换,还能在连续任务中自主衔接技能。然而,现有方法要么依赖固定动作参考,难以适配未知物体几何形状;要么局限于单一任务,无法实现长时域技能组合。为此,研究团队提出 LESSMIMIC 框架,以距离场(DF)为统一交互表示,通过三阶段训练流程,让单个策略具备几何泛化能力与长时域技能组合能力,无需动作参考即可完成复杂全身交互。

Unknown.png

核心挑战:全身交互的三重核心障碍

人形机器人实现通用交互面临三大关键难题,制约着技术规模化应用。其一,几何依赖陷阱:传统方法将交互技能与特定物体形状、尺度强绑定,依赖预定义动作参考,面对未见过的物体时易失效;其二,技能割裂困境:不同交互任务(拾取、推动、坐姿)的观测与奖励设计各异,单一策略难以兼容,长时域任务中技能切换易中断;其三,交互表示缺陷:点云、体素等几何表示要么离散化丢失梯度信息,要么计算成本过高,无法满足实时接触 - rich 控制的需求。

 

现有技术要么受限于固定物体与任务,要么缺乏统一的交互表示,未能解决 “几何泛化 - 技能组合 - 高效表示” 的三重矛盾,难以实现通用的长时域全身交互。

 

核心框架:距离场驱动的通用交互解决方案

LESSMIMIC 以 “距离场统一表示 + 三阶段训练” 为核心,通过距离场捕捉几何交互本质,结合行为克隆、对抗性微调与视觉蒸馏,系统性突破上述挑战,实现几何泛化与长时域技能组合。

Unknown-1.png

Unknown-2.png

第一要素:距离场交互表示,解耦几何与技能

LESSMIMIC 采用距离场(DF)作为统一交互表示,从局部几何关系出发,摆脱对特定物体形状与动作参考的依赖。距离场为空间中每个点分配到物体表面的距离,其梯度直接编码表面法线方向,为接触控制提供关键几何线索。

 

在此基础上,框架提取四大核心交互特征:物体表面距离、表面梯度(法线方向)、法向速度(接近 / 远离物体的运动强度)、切向速度(沿物体表面的滑动轨迹)。这些特征构成的交互表示具有天然的几何不变性 —— 无论物体尺寸、形状如何变化,局部几何交互的核心模式保持一致,让策略学习 “交互的本质” 而非 “特定物体的动作”。

 

为捕捉交互的时间演化,框架将连续时间步的交互特征整合为历史序列,通过变分自编码器(VAE)编码为紧凑 latent 向量,既降低噪声干扰,又为策略提供完整的几何交互上下文。

 

第二要素:三阶段训练流程,兼顾稳定与泛化

框架通过 “交互技能预训练 - 判别式后训练 - 视觉 - 运动蒸馏” 三阶段训练,逐步提升策略的稳定性、泛化性与部署实用性。

 

阶段一:交互技能预训练,奠定基础能力

该阶段通过行为克隆(DAgger)初始化策略,解决物理可行性问题。首先由教师策略(基于 ResMimic)跟踪重定向的人类交互动作,生成物理上有效的训练数据 —— 教师策略通过残差模块补偿动态不匹配,确保示范动作既符合人体运动规律,又满足机器人物理约束。

 

学生策略(目标策略)仅以距离场 latent 向量、机器人本体感受(关节位置 / 速度)、根轨迹指令为输入,完全不依赖动作参考,通过模仿教师动作完成初始化。这种训练方式让策略在起步阶段就建立 “几何交互 - 动作输出” 的映射,避免无意义探索。

 

阶段二:判别式后训练,提升泛化能力

为突破训练数据的几何局限,该阶段在随机化环境中通过强化学习微调策略。环境随机化涵盖物体尺度(0.4 倍至 1.6 倍)、形状(立方体、圆柱体等)、物理属性(质量、摩擦系数),迫使策略适应多样化几何条件。

 

核心创新在于引入对抗性交互先验(AIP):训练一个判别器,区分策略在新物体上生成的交互 latent 向量与预训练阶段的高质量交互向量。策略在强化学习中不仅追求任务完成(如根轨迹跟踪、物体操控),还需生成判别器认可的 “有效交互模式”,从而习得跨几何的通用交互规则。同时,结合对抗性运动先验(AMP)保证动作自然性,避免物理不合理姿态。

 

阶段三:视觉 - 运动蒸馏,适配真实部署

为摆脱对运动捕捉(MoCap)设备的依赖,框架将 MoCap 驱动的策略蒸馏为纯视觉策略。视觉策略以机器人机载深度相机的图像序列为输入,通过 CNN 编码器学习从视觉信息中提取几何交互特征,与预训练阶段的距离场 latent 向量对齐。

 

蒸馏过程采用 DAgger 风格,冻结预训练策略作为教师,引导视觉策略学习 —— 通过领域随机化(相机抖动、深度噪声、光照变化)增强鲁棒性,确保纯视觉输入下仍能准确感知几何交互关系,满足真实场景部署需求。

 

第三要素:统一策略架构,支持长时域技能组合

策略采用 Transformer 架构,擅长捕捉长序列依赖,能够自然衔接不同交互技能。由于所有任务共享同一距离场表示与观测空间,策略无需额外的任务切换机制:当环境几何关系变化时(如从 “推柜子” 切换到 “拾盒子”),距离场 latent 向量会自动反映交互模式的改变,策略通过持续感知几何变化,实现技能的隐式切换。

 

这种设计让单个策略能够处理连续的异质任务序列,无需环境重置或人工干预,为长时域交互奠定基础。

 

实验验证:泛化与长时域能力双重突破

 

研究团队在模拟环境与真实人形机器人平台上进行全面验证,涵盖拾取、坐姿切换、推动、搬运四大任务,充分证明框架的有效性。

Unknown-3.png

核心性能表现

在几何泛化方面,LESSMIMIC 展现出极强的适应性:面对 0.4 倍至 1.6 倍尺度的物体,拾取任务成功率保持 80%-100%,坐姿切换任务成功率稳定在 60% 以上,而传统参考型方法在尺度偏离训练分布后成功率骤降至 0%-40%。真实世界中,策略能成功拾取训练中未见过的足球(球形物体),并在 12 厘米与 46 厘米两种高度的椅子上完成坐姿切换,验证了形状与尺度泛化能力。

Unknown-4.png

在长时域技能组合方面,单个策略能自主完成 5 个随机排序的异质任务(如 “推柜子 - 拾盒子 - 搬运 - 坐姿切换 - 推动”),成功率达 62.1%,即使扩展到 40 个连续任务,仍保持 2.1% 的可行性 —— 而所有 ablation 变体(移除 AIP、随机化等组件)在 10 个任务后即完全失效,凸显核心组件的必要性。

 

在视觉部署方面,纯视觉策略的性能虽略低于 MoCap 驱动版本,但在拾取任务中仍保持 63.7%-99.7% 的成功率,且能应对深度噪声、相机抖动等真实场景干扰,满足无 MoCap 设备的部署需求。

Unknown-5.png

关键组件有效性

  • 距离场表示:移除距离场特征后,策略无法泛化到新物体,尺度偏离训练分布时成功率接近 0;

  • 对抗性交互先验(AIP):无 AIP 的策略在新物体上交互模式混乱,接触率下降 50% 以上;

  • 几何随机化:关闭随机化后,策略仅能处理训练过的物体尺度与形状,泛化能力完全丧失;

  • Transformer 架构:替换为 MLP 后,长时域任务中技能切换频繁失败,5 个任务序列成功率降至 1.7%。

 

应用价值:人形机器人交互的通用范式

 

LESSMIMIC 的创新不仅在于技术突破,更在于构建了 “几何驱动 - 通用策略 - 长时域执行” 的交互范式,核心价值体现在三方面:

 

其一,几何泛化革命:首次实现单个策略对 0.4 倍至 1.6 倍尺度、多种形状物体的稳定交互,摆脱对特定物体的依赖,大幅降低技能开发成本;其二,长时域能力突破:支持 40 个连续异质任务的自主执行,为家庭服务、工业辅助等复杂场景提供可能;其三,部署门槛降低:纯视觉版本无需 MoCap 设备,仅通过机载深度相机即可部署,推动人形机器人从实验室走向真实环境。


项目地址https://lessmimic.github.io

开源地址https://github.com/Yutang-Lin/LessMimic

Donghu Robot Laboratory, 2nd Floor, Baogu Innovation and Entrepreneurship Center,Wuhan City,Hubei Province,China Tel:027-87522899,027-87522877

合作与咨询

渠道商务合作:18062020215

售前技术咨询:13807184032

售后服务热线:18062020228

网站备案号:鄂ICP备17004685号-1 | 技术支持 | 联系我们 | 服务条款与隐私权 | 网站地图