清华大学等团队提出的Hiking in the Wild,是一款面向复杂非结构化环境的人形机器人敏捷行走框架。它以 “端到端感知 - 控制” 为核心,通过深度图像实时感知地形,结合地形边缘安全机制与自适应指令生成策略,让人形机器人实现零样本仿真到现实迁移,在室内外复杂地形(楼梯、斜坡、间隙、高台)中以最高 2.5 m/s 的速度稳健行走,突破传统方法在动态性、安全性与泛化性上的三重局限。
项目地址:https://project-instinct.github.io/hiking-in-the-wild/
开源地址:https://github.com/project-instinct/InstinctLab
Data&Model:https://drive.google.com/file/d/10tQylYHdKLVDVnmVHrygLB70neHnPdoF/view

一、核心痛点:复杂环境行走的感知与控制难题
人形机器人在野外复杂地形行走,面临 “感知噪声 + 安全风险 + 训练低效” 的三重挑战:
1. 感知与现实鸿沟
激光雷达依赖精准状态估计,易受躯干抖动影响产生漂移;传统深度图像方法处理速度慢、泛化性差,难以适配野外未知地形。
2. 落足安全风险高
人形机器人稳定性弱,若脚步部分踩在地形边缘(如楼梯边缘),易发生打滑甚至坠落,传统学习方法缺乏针对性安全约束。
3. 训练易出现奖励作弊
随机速度指令易导致机器人原地打转而非穿越复杂地形,训练效率低,难以形成有效探索。
Hiking in the Wild 的核心突破:以高频率深度感知为基础,通过边缘安全机制保障落足安全,以平坦区域采样生成合理指令避免无效探索,实现 “感知 - 决策 - 控制” 端到端优化。
二、技术架构:感知 - 安全 - 指令三位一体,构建野外行走能力
框架采用单阶段强化学习架构,直接将原始深度图像与本体感觉映射为关节动作,核心包含 “深度感知仿真、落足安全机制、自适应指令生成” 三大模块:

1. 核心一:高保真深度感知仿真 —— 缩小虚实鸿沟
通过模拟真实深度传感器特性,让政策在仿真中学习鲁棒感知能力,实现零样本迁移:
(1)深度图像合成与噪声建模
利用 GPU 加速射线投射生成高保真深度图,通过裁剪缩放、距离相关高斯噪声、视差伪影、高斯模糊等操作,模拟真实传感器的噪声与缺陷;部署时通过深度修复、模糊处理,将真实传感器数据适配训练输入空间。

(2)时序深度聚合
采用跨步采样策略,从历史深度图像中稀疏采样关键帧,既捕捉地形变化趋势,又避免高频连续帧的信息冗余,帮助政策在高速行走时预判地形变化。
2. 核心二:地形边缘安全机制 —— 避免致命落足错误
创新设计 “地形边缘检测 + 脚部体积点惩罚”,隐式引导机器人选择安全落足点:
(1)自动地形边缘检测
通过计算地形网格相邻面的二面角,自动识别陡峭边缘,无需手动标注,可适配台阶、石块、木桩等多种地形,且能泛化到训练中未见过的地形类型。
(2)体积点穿透惩罚
在机器人脚部碰撞区域分布多个体积点,若这些点穿透地形边缘,将施加惩罚奖励,引导机器人将脚完整落在平坦区域,大幅降低打滑风险。实验表明,该机制能使落足面积占比提升,楼梯下行等边缘密集场景的成功率显著提高。
3. 核心三:自适应指令生成 —— 避免奖励作弊
通过平坦区域采样生成合理导航目标,确保训练高效且指令可控:
(1)平坦区域采样
在地形网格中自动识别可达的平坦区域(周围高度差低于阈值),作为导航目标,避免将指令指向陡峭斜坡等不可行区域。
(2)位置基速度指令
基于机器人与平坦目标的相对位置,生成自适应速度指令,包含前进速度与转向角速度,同时随机化速度上限,既保证机器人向目标移动,又避免原地打转;额外设置少量纯转向指令,确保机器人掌握原地旋转能力。
4. 核心四:端到端政策训练
(1)网络架构与观测输入
采用混合专家(MoE)架构,高效处理高维度深度图像与本体感觉数据,支持 60 Hz 高频感知 - 控制闭环;观测输入包含本体感觉(关节位置 / 速度、基座角速度、重力向量)、历史深度图像、历史动作与速度指令。
(2)对抗运动先验(AMP)
融合 MPC 生成的稳定步态、人类运动捕捉数据、高速跑步数据,通过对抗训练让机器人步态更自然敏捷,避免僵硬或异常动作。
(3)训练优化
采用 PPO 算法训练,通过课程学习逐步提升地形难度(从窄间隙、低高度差到宽间隙、高高台),结合领域随机化(扰动机器人惯性、接触摩擦系数)增强泛化能力。
三、实验验证:复杂地形行走性能突破
框架在 Unitree G1 人形机器人上完成室内外多场景验证,核心性能全面超越传统方法:
1. 核心性能:动态性与安全性双优
速度与地形适配:最高奔跑速度达 2.5 m/s,成功穿越 32 cm 高台、50 cm 宽间隙、楼梯、斜坡等复杂地形;
安全与稳定性:落足安全机制使脚部完整落足占比达 94%-99%,楼梯下行、高台跨越等场景成功率超 99%,连续行走 4 分钟无坠落;
零样本迁移:仿真训练的政策直接部署到真实机器人,无需额外微调,在野外未知地形中保持稳健表现。


2. 关键模块有效性验证
边缘安全机制:开启后,小箱子跨越场景成功率从 93.17% 提升至 99.09%,落足面积占比显著提高,避免边缘打滑;
平坦区域采样指令:相比随机指令,避免机器人原地打转,复杂地形穿越时间缩短 30% 以上;
深度时序聚合:无历史深度输入时,小箱子跨越场景成功率仅 1.66%,开启后提升至 99.09%,有效支撑高速行走时的地形预判。
3. 与传统方法对比优势
对比激光雷达方法:无需精准定位,抗躯干抖动能力强,无漂移问题,适配动态行走场景;
对比传统深度图像方法:处理频率达 60 Hz,支持高速行走,泛化性强,可适配野外未知地形;
对比无安全机制方法:复杂边缘地形的坠落风险降低 80% 以上,安全性大幅提升。
四、核心优势与现存局限
1. 核心优势
端到端高效部署:单阶段架构无需中间地图重建或状态估计,部署简单,支持 50 Hz 关节控制;
安全机制泛化性强:自动检测任意地形边缘,无需手动设计特征,适配多种复杂场景;
零样本虚实迁移:高保真深度仿真缩小感知鸿沟,无需现实数据预训练即可直接部署。
2. 现存局限
感知范围有限:依赖单向前置深度相机,缺乏侧向与后方感知,难以实现全向移动;
多步态训练易冲突:同时训练行走、奔跑等多种步态时,可能出现模式崩溃,性能下降。
五、总结与未来方向
Hiking in the Wild 的核心价值在于构建了 “感知 - 安全 - 指令” 三位一体的端到端框架,突破传统方法在复杂环境中的动态性、安全性与泛化性瓶颈,为人形机器人在野外救援、工业巡检等场景的应用奠定基础。
Donghu Robot Laboratory, 2nd Floor, Baogu Innovation and Entrepreneurship Center,Wuhan City,Hubei Province,China
Tel:027-87522899,027-87522877