【科研案例】一种适用于类人机器人的可扩展感知跑酷框架

2026-01-09

清华大学等团队提出的Hiking in the Wild，是一款面向复杂非结构化环境的人形机器人敏捷行走框架。它以 “端到端感知 - 控制” 为核心，通过深度图像实时感知地形，结合地形边缘安全机制与自适应指令生成策略，让人形机器人实现零样本仿真到现实迁移，在室内外复杂地形（楼梯、斜坡、间隙、高台）中以最高 2.5 m/s 的速度稳健行走，突破传统方法在动态性、安全性与泛化性上的三重局限。

项目地址：https://project-instinct.github.io/hiking-in-the-wild/

开源地址：https://github.com/project-instinct/InstinctLab

Data&Model：https://drive.google.com/file/d/10tQylYHdKLVDVnmVHrygLB70neHnPdoF/view

图1.png

一、核心痛点：复杂环境行走的感知与控制难题

人形机器人在野外复杂地形行走，面临 “感知噪声 + 安全风险 + 训练低效” 的三重挑战：

1. 感知与现实鸿沟

激光雷达依赖精准状态估计，易受躯干抖动影响产生漂移；传统深度图像方法处理速度慢、泛化性差，难以适配野外未知地形。

2. 落足安全风险高

人形机器人稳定性弱，若脚步部分踩在地形边缘（如楼梯边缘），易发生打滑甚至坠落，传统学习方法缺乏针对性安全约束。

3. 训练易出现奖励作弊

随机速度指令易导致机器人原地打转而非穿越复杂地形，训练效率低，难以形成有效探索。

Hiking in the Wild 的核心突破：以高频率深度感知为基础，通过边缘安全机制保障落足安全，以平坦区域采样生成合理指令避免无效探索，实现 “感知 - 决策 - 控制” 端到端优化。

二、技术架构：感知 - 安全 - 指令三位一体，构建野外行走能力

框架采用单阶段强化学习架构，直接将原始深度图像与本体感觉映射为关节动作，核心包含 “深度感知仿真、落足安全机制、自适应指令生成” 三大模块：

图2.png

1. 核心一：高保真深度感知仿真 —— 缩小虚实鸿沟

通过模拟真实深度传感器特性，让政策在仿真中学习鲁棒感知能力，实现零样本迁移：

（1）深度图像合成与噪声建模

利用 GPU 加速射线投射生成高保真深度图，通过裁剪缩放、距离相关高斯噪声、视差伪影、高斯模糊等操作，模拟真实传感器的噪声与缺陷；部署时通过深度修复、模糊处理，将真实传感器数据适配训练输入空间。

图3.png

（2）时序深度聚合

采用跨步采样策略，从历史深度图像中稀疏采样关键帧，既捕捉地形变化趋势，又避免高频连续帧的信息冗余，帮助政策在高速行走时预判地形变化。

2. 核心二：地形边缘安全机制 —— 避免致命落足错误

创新设计 “地形边缘检测 + 脚部体积点惩罚”，隐式引导机器人选择安全落足点：

（1）自动地形边缘检测

通过计算地形网格相邻面的二面角，自动识别陡峭边缘，无需手动标注，可适配台阶、石块、木桩等多种地形，且能泛化到训练中未见过的地形类型。

（2）体积点穿透惩罚

在机器人脚部碰撞区域分布多个体积点，若这些点穿透地形边缘，将施加惩罚奖励，引导机器人将脚完整落在平坦区域，大幅降低打滑风险。实验表明，该机制能使落足面积占比提升，楼梯下行等边缘密集场景的成功率显著提高。

3. 核心三：自适应指令生成 —— 避免奖励作弊

通过平坦区域采样生成合理导航目标，确保训练高效且指令可控：

（1）平坦区域采样

在地形网格中自动识别可达的平坦区域（周围高度差低于阈值），作为导航目标，避免将指令指向陡峭斜坡等不可行区域。

（2）位置基速度指令

基于机器人与平坦目标的相对位置，生成自适应速度指令，包含前进速度与转向角速度，同时随机化速度上限，既保证机器人向目标移动，又避免原地打转；额外设置少量纯转向指令，确保机器人掌握原地旋转能力。

4. 核心四：端到端政策训练

（1）网络架构与观测输入

采用混合专家（MoE）架构，高效处理高维度深度图像与本体感觉数据，支持 60 Hz 高频感知 - 控制闭环；观测输入包含本体感觉（关节位置 / 速度、基座角速度、重力向量）、历史深度图像、历史动作与速度指令。

（2）对抗运动先验（AMP）

融合 MPC 生成的稳定步态、人类运动捕捉数据、高速跑步数据，通过对抗训练让机器人步态更自然敏捷，避免僵硬或异常动作。

（3）训练优化

采用 PPO 算法训练，通过课程学习逐步提升地形难度（从窄间隙、低高度差到宽间隙、高高台），结合领域随机化（扰动机器人惯性、接触摩擦系数）增强泛化能力。

三、实验验证：复杂地形行走性能突破

框架在 Unitree G1 人形机器人上完成室内外多场景验证，核心性能全面超越传统方法：

1. 核心性能：动态性与安全性双优

速度与地形适配：最高奔跑速度达 2.5 m/s，成功穿越 32 cm 高台、50 cm 宽间隙、楼梯、斜坡等复杂地形；

安全与稳定性：落足安全机制使脚部完整落足占比达 94%-99%，楼梯下行、高台跨越等场景成功率超 99%，连续行走 4 分钟无坠落；

零样本迁移：仿真训练的政策直接部署到真实机器人，无需额外微调，在野外未知地形中保持稳健表现。

图4.png 图5.png

2. 关键模块有效性验证

边缘安全机制：开启后，小箱子跨越场景成功率从 93.17% 提升至 99.09%，落足面积占比显著提高，避免边缘打滑；

平坦区域采样指令：相比随机指令，避免机器人原地打转，复杂地形穿越时间缩短 30% 以上；

深度时序聚合：无历史深度输入时，小箱子跨越场景成功率仅 1.66%，开启后提升至 99.09%，有效支撑高速行走时的地形预判。

图6.png 3. 与传统方法对比优势

对比激光雷达方法：无需精准定位，抗躯干抖动能力强，无漂移问题，适配动态行走场景；

对比传统深度图像方法：处理频率达 60 Hz，支持高速行走，泛化性强，可适配野外未知地形；

对比无安全机制方法：复杂边缘地形的坠落风险降低 80% 以上，安全性大幅提升。

四、核心优势与现存局限

1. 核心优势

端到端高效部署：单阶段架构无需中间地图重建或状态估计，部署简单，支持 50 Hz 关节控制；

安全机制泛化性强：自动检测任意地形边缘，无需手动设计特征，适配多种复杂场景；

零样本虚实迁移：高保真深度仿真缩小感知鸿沟，无需现实数据预训练即可直接部署。

2. 现存局限

感知范围有限：依赖单向前置深度相机，缺乏侧向与后方感知，难以实现全向移动；

多步态训练易冲突：同时训练行走、奔跑等多种步态时，可能出现模式崩溃，性能下降。

五、总结与未来方向

Hiking in the Wild 的核心价值在于构建了 “感知 - 安全 - 指令” 三位一体的端到端框架，突破传统方法在复杂环境中的动态性、安全性与泛化性瓶颈，为人形机器人在野外救援、工业巡检等场景的应用奠定基础。

智能机器人创新实训实验室

通用机器人实验室

数智仿生智能机器人实验室

人形机器人产线分拣实训方案

宇树H2-D轮式双臂机器人

数据采集与AI训练全栈解决方案

双臂数采训练全栈解决方案

宇树移动双臂机器人

2026春晚悟空人形机器人H2

轻量型人形机器人R1

2026马年春晚武术机器人G1

2025蛇年春晚扭秧歌机器人H1

行业级轮式强负载四足机器狗

超强负载全地形灵敏仿生机器狗As2

行业级轻量化强负载四足仿生机器人A2

2026马年春晚轮足一体四足狗B2-W

移动机器人机载机械臂

双臂/四臂遥操作机械臂套件

强脑仿生灵巧手

宇树自研五指灵巧手

三指力控灵巧手

二指平行夹爪

推荐文章

喜讯|祝贺武汉京天在武汉大学“多维主动感知器、机械臂、人形机器人”等项目中中标

喜讯|祝贺武汉京天在华中科技大学“人形机器人设备”等项目中中标

新闻|第五届智能制造与机器人教学研讨会参会嘉宾参观京天-宇树科技联合展厅

产品和解决方案

院校服务

技术支持

关于京天

合作与咨询