Mondo Robotics、香港科技大学【端到端具身智能框架】 - 智能机器人仿真与虚拟教学

Mondo Robotics、香港科技大学【端到端具身智能框架】

客户名称：Mondo Robotics、香港科技大学
应用类型：仿真模拟
项目时间：2026年3月
应用产品：人形机器人G1
应用类型：仿真模拟
项目概述：在具身智能领域，视觉 - 语言 - 动作（VLA）模型虽能迁移语义先验，但受限于静态图像 - text 预训练，难以捕捉物理动态；而视频生成模型虽蕴含丰富时空与物理信息，却未能与动作控制实现深度融合，导致泛化性与控制精度难以兼顾。为此，研究团队提出 DiT4DiT 框架，通过端到端联合训练视频扩散 Transformer（Video DiT）与动作扩散 Transformer（Action DiT），以视频生成过程中的中间去噪特征为桥梁，将动态生成能力与精确控制需求紧密耦合，在仿真与真实环境中均实现 state-of-the-art（SOTA）性能，为构建可扩展、高泛化的具身智能体提供了全新架构范式。项目地址：https://dit4dit.github.io/
项目成果： DiT4DiT 构建了 “生成式动态建模 + 精确动作控制” 的统一架构，首次实现视频扩散与动作扩散的端到端联合训练，以中间去噪特征为桥接，解决了动态生成与动作控制的协同难题，为具身智能提供了全新的 “动态感知 - 控制生成” 链路，通过视频模型内置的物理动态先验，大幅降低对动作数据的依赖，实现对 unseen 物体、场景变化的零样本泛化，推动具身智能体从 “特定任务适配” 向 “开放环境通用” 跨越。

Donghu Robot Laboratory, 2nd Floor, Baogu Innovation and Entrepreneurship Center，Wuhan City，Hubei Province，China Tel：027-87522899,027-87522877

合作与咨询

渠道商务合作：18062020215

售前技术咨询：13807184032

售后服务热线：18062020228

智能机器人创新实训实验室

通用机器人实验室

数智仿生智能机器人实验室

数据采集与AI训练全栈解决方案

双臂数采训练全栈解决方案

移动抓取四足机器人

拳击格斗人形机器人

2026春晚悟空人形机器人H2

轻量型人形机器人R1

2026马年春晚武术机器人G1

2025蛇年春晚扭秧歌机器人H1

超强负载全地形灵敏仿生机器狗As2

行业级轻量化强负载四足仿生机器人A2

2026马年春晚轮足一体四足狗B2-W

工业级四足仿生智能机器人B2

移动机器人机载机械臂

双臂/四臂遥操作机械臂套件

宇树自研五指灵巧手

三指力控灵巧手

二指平行夹爪

强脑仿生灵巧手

产品和解决方案

院校服务

技术支持

关于京天

合作与咨询