阅读指南 AI 调研与资料整理
面向技术趋势、行业资料和模型能力的调研型内容,适合快速建立背景认知。
适合读者
- 需要快速了解 AI 技术或行业方向的读者
- 想把资料整理转成工程判断的开发者
前置知识
- 了解基本 AI / 后端概念会更顺畅
- 重点关注结论、边界和可落地方向
你将收获
- 获得主题背景、关键术语和趋势判断
- 识别后续需要深入验证的工程问题
这是一篇调研或历史归档型文章,适合作为背景资料阅读;如果要用于实际落地,建议结合最新官方文档和当前工程环境再验证。
现代 AI 方法概述
- 强化学习(RL)
- 模仿学习(IL / BC)
- Transformer 大模型(ACT、VLA)
- 多模态感知融合
视觉-语言-动作模型(VLA)
RT-1
- 训练数据:13 万人类演示
- 任务:700+ 厨房场景
- 输入:6 张连续图像 + 自然语言指令
- 输出:11 维离散动作向量
- 成功率:85%+
RT-2
- 参数:5.5B(PaLI-X)
- 创新:知识迁移、动作离散化、混合训练
- 提升:开放词汇任务 +47%、适应 +60%、复杂指令 +35%
扩散策略(Diffusion Policy)
RDT-1B
- 256 层 Transformer
- 生成 64 步双臂协调动作序列
- 提升:精细抓取 +23%、复杂装配 -37% 时间、动态环境 +41%
优势
- 自然处理多模态动作分布
- 处理环境不确定性
- 强序列建模能力
挑战
- 采样速度慢
- 解决:知识蒸馏、Transformer
发展趋势
- 早期:纯奖励优化(RL)
- 中期:模仿学习(IL)
- 当前:大模型 + 生成策略