AI-调查研究-101-具身智能现代AI方法全解析：VLA、RT-1、RT-2、扩散模型在机器人控制中的应用

2025/10/12

人工智能机器人具身智能 ai gpt 深度学习机器学习

现代 AI 方法概述

强化学习（RL）
模仿学习（IL / BC）
Transformer 大模型（ACT、VLA）
多模态感知融合

视觉-语言-动作模型（VLA）

RT-1

训练数据：13 万人类演示
任务：700+ 厨房场景
输入：6 张连续图像 + 自然语言指令
输出：11 维离散动作向量
成功率：85%+

RT-2

参数：5.5B（PaLI-X）
创新：知识迁移、动作离散化、混合训练
提升：开放词汇任务 +47%、适应 +60%、复杂指令 +35%

扩散策略（Diffusion Policy）

RDT-1B

256 层 Transformer
生成 64 步双臂协调动作序列
提升：精细抓取 +23%、复杂装配 -37% 时间、动态环境 +41%

优势

自然处理多模态动作分布
处理环境不确定性
强序列建模能力

挑战

采样速度慢
解决：知识蒸馏、Transformer

发展趋势

早期：纯奖励优化（RL）
中期：模仿学习（IL）
当前：大模型 + 生成策略