AI-调查研究-101-具身智能现代AI方法全解析：VLA、RT-1、RT-2、扩散模型在机器人控制中的应用

📚 AI 工程化与行业调研 AI 调研与资料整理

2025/10/12

人工智能机器人具身智能 gpt 深度学习

武子康 · 预计阅读时间: 2 分钟

AI Agent / 多模态交互 / 端云协同系统工程师

AI-调查研究-101-具身智能现代AI方法全解析：VLA、RT-1、RT-2、扩散模型在机器人控制中的应用

阅读指南

AI 调研与资料整理

面向技术趋势、行业资料和模型能力的调研型内容，适合快速建立背景认知。

适合读者

需要快速了解 AI 技术或行业方向的读者
想把资料整理转成工程判断的开发者

前置知识

了解基本 AI / 后端概念会更顺畅
重点关注结论、边界和可落地方向

你将收获

获得主题背景、关键术语和趋势判断
识别后续需要深入验证的工程问题

这是一篇调研或历史归档型文章，适合作为背景资料阅读；如果要用于实际落地，建议结合最新官方文档和当前工程环境再验证。

现代 AI 方法概述

强化学习（RL）
模仿学习（IL / BC）
Transformer 大模型（ACT、VLA）
多模态感知融合

视觉-语言-动作模型（VLA）

RT-1

训练数据：13 万人类演示
任务：700+ 厨房场景
输入：6 张连续图像 + 自然语言指令
输出：11 维离散动作向量
成功率：85%+

RT-2

参数：5.5B（PaLI-X）
创新：知识迁移、动作离散化、混合训练
提升：开放词汇任务 +47%、适应 +60%、复杂指令 +35%

扩散策略（Diffusion Policy）

RDT-1B

256 层 Transformer
生成 64 步双臂协调动作序列
提升：精细抓取 +23%、复杂装配 -37% 时间、动态环境 +41%

优势

自然处理多模态动作分布
处理环境不确定性
强序列建模能力

挑战

采样速度慢
解决：知识蒸馏、Transformer

发展趋势

早期：纯奖励优化（RL）
中期：模仿学习（IL）
当前：大模型 + 生成策略