标签: 深度学习

共 28 篇文章

AI研究-135 Gemini 3 Pro重回榜首：MoE、百万上下文与Deep Think等关键因素

从稀疏MoE架构、百万Token上下文、原生多模态（文本/图片/视频/PDF）到思维深度控制（thinking_level）与Deep Think模式，解释其在高难度推理与长程任务中的稳定优势。

2025/12/2

AI研究-130 Qwen2.5-Omni 实战：多场景落地清单与同期对标

办公助理、教育培训、编程与运维、搜索增强 RAG、设备控制/插件代理与陪伴娱乐。围绕 Thinker-Talker 双核、TMRoPE、Streaming DiT、文本/图像/音频/视频输入 + 文本/语音输出与 32k 上下文等要点，给出工程化取舍与对标脉络（与 GPT-4/Claude/Gemini 同期模型的优劣势对比）。同时总结 RAG 接入、Agent 调用、OCR/ASR/T...

2025/11/19

AI研究-129 Qwen2.5-Omni-7B 要点：显存、上下文、并发与成本

在 FP16≈14GB 显存下可稳态运行，配合 INT8/INT4 量化（INT4 <4GB）能在消费级 GPU 甚至边缘端部署；结合 FlashAttention 2 与多线程并发，单机可服务多会话低延迟。上下文默认 8k，长序 32k，实验系 Turbo 支持 ~1M token。文中罗列 Omni 在多模态综合/ASR/TTS/视觉/视频/MMLU/GSM8K/HumanEval 等评...

2025/11/18

AI研究-128 Qwen2.5-Omni 训练全流程拆解：三阶段对齐 + SFT/RLHF 原理流程分析研究

以 Qwen2.5 基座为 Thinker，视觉初始化于 Qwen2.5-VL，音频参考 Whisper-large-v3，采用"三阶段"训练（编码器对齐→全模态联合→长序列）并结合 SFT 与 RLHF（如 DPO、Group RPO）。在长上下文方面，Omni-7B 默认约 32k 上下文，配合 Dual Chunk Attention（DCA）、YARN、TMRoPE 等机制，兼顾...

2025/11/17

AI研究-127 Qwen2.5-Omni 深解：Thinker-Talker 双核、TMRoPE 与流式语音

Qwen2.5-Omni（2024–2025）的 Thinker-Talker 双核架构做工程化拆解：统一 Transformer 解码器融合文本/图像/视频/音频，通过 TMRoPE 完成时间对齐；生成侧采用双轨自回归 + 流式 TTS（qwen-tts-tokenizer），支持多说话人音色解耦。训练数据在 Qwen2.5 体系上扩展（文本与多模态对齐数据），并结合分块输入、滑窗...

2025/11/16

AI研究-125 Tesla FSD 商业模式与竞品对比：订阅/买断、Robotaxi 与 2025 版图

FSD V14（2025）的商业模式与竞争格局，解析买断（约$15,000）/订阅（约$199/月）的定价逻辑与OTA迭代带来的递延收入确认方式，并对比Waymo、Cruise、Mobileye、百度Apollo等主流方案在传感器策略、地图依赖、决策范式与商业路径的差异。

2025/11/11

AI研究-124 Tesla FSD V14 深度解析：城市/高速表现与关键接管数据

Tesla FSD V14 的实测与道路表现，对比 V13.2 在城市道路与高速公路的关键接管里程、并线/匝道、目的地抵达与长尾场景（施工、应急车、杂物规避）等能力。文中提及V14在城市与高速的无接管里程较V13.2明显提升，城区更少犹豫刹停，高速变道更贴近人类直觉。

2025/11/10

AI研究-123 FSD V14 深度解析：纯视觉 SDF 与端到端相比 V12 具体升级

FSD V14 (2025) 相对 V12 (2023) 的技术演进，聚焦纯视觉方案、SDF（有向距离场）占用重建、端到端神经网络决策与 HW3/HW4 硬件差异。文中梳理了从多摄像头输入到 BEV/占用网络再到控制输出的全链路，指出 V14 在模型规模、视频细节保留与长尾场景（施工、无保护左转、慢速目标）上的改进。

2025/11/7

AI研究-121 DeepSeek-OCR 研究路线：无限上下文、跨模态抽取、未来创意点、项目创意点

DeepSeek-OCR（2025，含3B参数方向）的前沿思路与工程落地展开，总结"上下文光学压缩、无限长上下文记忆、跨模态信息抽取、模型压缩与蒸馏、视觉压缩的理论探索"等研究路线，并给出面向PDF智能助手、AI学习笔记整理、以图搜文的多模态检索，知识库存储光学压缩的实用Demo方案。

2025/11/5

AI研究-119 DeepSeek-OCR PyTorch FlashAttn 2.7.3 推理与部署模型规模与...

介绍DeepSeek-OCR在本地/私有化部署的可复用做法，基于Python 3.12、PyTorch 2.6.0、Transformers 4.46.3与FlashAttention 2.7.3的推理环境，约3B参数模型推理与部署指南。

2025/11/4

AI研究-120 DeepSeek-OCR 从 0 到 1：上手路线、实战要点

DeepSeek-OCR 从 0 到 1 的上手路径与工程化要点（以 2025 年为准），覆盖环境搭建（Python/PyTorch 2.x、Transformers 4.x）→模型加载→输出解析（文本/坐标/标记）→参数试验（base_size、crop_mode、Prompt）→文档阅读与代码走读。

2025/11/4

AI研究-118 具身智能 Mobile-ALOHA 解读：移动＋双臂模仿学习的开源方案（含论文/代码/套件链接）

Mobile-ALOHA：一种将移动底盘与双臂协同结合的开源移动操作方案。其通过全身遥操作低成本采集多模态演示数据，采用 ACT 等监督式模仿学习（Behavior Cloning），并与静态 ALOHA 数据共训，在烹饪、开门、按键等长流程任务上显著提效。

2025/11/3

AI研究-116 特斯拉 HW3.0 与 HW4.0 区别详解：摄像头分辨率、FSD算力、雷达与Vision泊车

Tesla HW3.0 vs HW4.0: 摄像头从约1.2MP升级到约5MP，支持更好的HDR/夜视；FSD计算机算力大幅提升；移除超声波传感器，替换为特斯拉视觉"高精度泊车"；HW4预留了Phoenix成像雷达接口，但不同批次的车辆可能未安装或未启用软件。

2025/10/31

AI-调查研究-108-具身智能机器人模型训练全流程详解：从预训练到强化学习与人类反馈

机器人数据模型训练流程涵盖从预训练、微调到强化学习与人类反馈的全周期优化，是实现智能自主决策的核心路径。首先通过大规模监督与自监督预训练获取通用感知与动作表示；随后在特定任务上进行微调，采用全量更新或LoRA等参数高效方法提升适应性。接着结合强化学习与模仿学习，实现从"会做"到"做好"的策略优化，并通过人类反馈构建奖励模型，确保机器人行为符合人类偏好与安全约束。最后在仿真与实机循环中...

2025/10/20

AI-调查研究-107-具身智能强化学习与机器人训练数据格式解析：从状态-动作对到多模态轨迹标准

机器人与强化学习系统中的数据格式与开发流程，包括时间序列轨迹、状态-动作对、离线强化学习数据、多模态融合结构及元数据标注标准。时间序列轨迹以状态—动作—奖励序列形式构建，支持Transformer等模型的时空理解。

2025/10/18

AI-调查研究-106-具身智能机器人学习数据采集工具和手段：传感器、API、遥操作、仿真与真人示教全流程

现代数据采集的核心方法与应用场景，涵盖从手动录入、传感器采集、网络爬虫、API接口调用、日志采集到仿真与真人示教等十余种方式，系统阐述其在工业自动化、物联网、AI训练、机器人控制等领域的具体实现。

2025/10/17

AI-调查研究-105-具身智能机器人学习数据采集：从示范视频到状态-动作对的流程解析

数据采集是机器人学习开发流程的关键环节，涵盖示范视频采集、动作轨迹记录、状态-动作对生成与语言指令标注等步骤。通过录制专家演示视频（1080p以上、30fps稳定光照）并分割关键帧，可为模仿学习提供高质量视觉数据。

2025/10/16

AI-调查研究-103-具身智能技术全景图 Isaac Gym、Habitat Open X-Embodimen...

机器人技术栈构成涵盖从硬件到算法的完整体系，是实现智能控制的核心基础。硬件层包括高性能计算单元（CPU、GPU、TPU）、边缘计算设备（Jetson、NUC）、感知传感器系统（RGB相机、激光雷达、IMU）与执行器系统（伺服电机，EtherCAT总线），构建出高精度感知与实时控制能力。软件层以ROS为核心中间件，结合G...

2025/10/14

AI-调查研究-102-具身智能智能机械臂、自动驾驶与人形机器人的模仿学习、强化学习与多模态融合趋势

不同类型的机器人在结构、任务和控制方式上差异巨大，因此AI算法的适配策略也需因地制宜。机械臂以高精度和重复性为核心，常用于工业制造和医疗操作。现代机械臂广泛采用模仿学习+强化学习结合的训练方式，通过人类示教与仿真微调实现毫米级操作精度。

2025/10/13

AI-调查研究-101-具身智能现代AI方法全解析：VLA、RT-1、RT-2、扩散模型在机器人控制中的应用

现代AI机器人控制方法正在经历从强化学习、模仿学习到大模型驱动的多模态智能体的重大跃迁。特别是视觉-语言-动作模型（VLA）与扩散策略的结合，正在重塑机器人智能的边界。

2025/10/12

AI-调查研究-100-具身智能现代AI方法全解析：强化学习、模仿学习与Transformer在机器人控制中的应用

面向机器人控制的现代人工智能方法涵盖强化学习（RL）、模仿学习（IL）、以及基于Transformer的大模型方法。强化学习通过奖励信号驱动机器人试错学习；模仿学习通过专家演示快速获取策略；Transformer模型用于序列决策。

2025/10/11

AI-调查研究-99-具身智能融合感知技术全面解析（摄像头、LiDAR、IMU、雷达融合）

融合感知（Sensor Fusion）是自动驾驶、机器人和智能安防等领域的核心技术，通过摄像头、LiDAR、雷达、IMU、超声波等多传感器数据融合，实现更精准、更全面的环境感知。常见方法包括数据级融合、特征级融合和决策级融合。典型组合如视觉+雷达实现全天候探测，LiDAR+IMU提升定位精度，多摄像头融合实现360°全景感知。

2025/10/10

AI-调查研究-98-具身智能视觉SLAM详解：ORB-SLAM、RTAB-Map、VINS-Fusion核心技...

视觉SLAM（Visual SLAM）是一种不依赖LiDAR，仅使用摄像头实现自主定位和环境建图的技术。通过提取环境特征（角点、边缘、纹理），利用多视图几何计算相机轨迹，同时建立3D地图。

2025/10/9

AI-调查研究-97-具身智能 SLAM算法对比与应用场景详解：Cartographer、LOAM、GMappin...

多传感器融合与SLAM是机器人感知与导航的核心技术。通过融合IMU、GPS、轮式里程计、激光雷达、视觉里程计等多源数据，机器人能够在复杂环境中实现高精度定位与实时建图。ROS生态中的robot_localization包是最常用的开源方案，支持EKF/UKF滤波器、多传感器输入和GPS全局定位。

2025/10/8

AI-调查研究-96-具身智能机器人场景测试全攻略：从极端环境到实时仿真

机器人场景测试全攻略，涵盖环境测试、负载测试、异常情况测试三大维度。传统手工测试存在效率低、难以复现的局限，自动化测试通过可编程性、可重复性显著提升覆盖率。实时仿真是核心手段，借助物理引擎可安全模拟危险场景。

2025/10/7

AI-调查研究-95-具身智能机器人场景测试全解析：从极端环境仿真到自动化故障注入

在机器人进入实际应用前，必须进行系统化的场景测试，涵盖极端天气、复杂地形、电磁干扰和突发状况等边界条件。传统手工测试覆盖率有限，而自动化测试与仿真技术可将罕见场景转化为可重复流程，大幅提升效率与安全性。

2025/10/5

AI-调查研究-93-具身智能机器人仿真工具大全：从Gazebo到Isaac Sim的全面对比六大仿真平台

仿真工具是机器人研发的重要组成部分，可在无风险环境下进行算法验证与系统调试，加速迭代。Gazebo作为开源标杆，支持多物理引擎与丰富传感器，深度融合ROS。NVIDIA Isaac Sim依托Omniverse与RTX技术，具备超高图形保真与GPU加速物理能力。Webots界面直观、跨平台，教学价值突出。CoppeliaSim功能强大，支持多机器人协同。

2025/10/3

AI-调查研究-92-具身智能机器人运动控制全解析：从传统模型到深度学习方法

机器人运动控制可分为两大类：传统基于模型的方法与基于深度学习的智能控制。前者强调运动学/动力学建模、轨迹规划与反馈控制，典型实现依托ROS2控制框架和MoveIt。

2025/10/2

标签: 深度学习

AI研究-135 Gemini 3 Pro重回榜首：MoE、百万上下文与Deep Think等关键因素

AI研究-130 Qwen2.5-Omni 实战：多场景落地清单与同期对标

AI研究-129 Qwen2.5-Omni-7B 要点：显存、上下文、并发与成本

AI研究-128 Qwen2.5-Omni 训练全流程拆解：三阶段对齐 + SFT/RLHF 原理流程分析研究

AI研究-127 Qwen2.5-Omni 深解：Thinker-Talker 双核、TMRoPE 与流式语音

AI研究-125 Tesla FSD 商业模式与竞品对比：订阅/买断、Robotaxi 与 2025 版图

AI研究-124 Tesla FSD V14 深度解析：城市/高速表现与关键接管数据

AI研究-123 FSD V14 深度解析：纯视觉 SDF 与端到端 相比 V12 具体升级

AI研究-121 DeepSeek-OCR 研究路线：无限上下文、跨模态抽取、未来创意点、项目创意点

AI研究-119 DeepSeek-OCR PyTorch FlashAttn 2.7.3 推理与部署 模型规模与...

AI研究-120 DeepSeek-OCR 从 0 到 1：上手路线、实战要点

AI研究-118 具身智能 Mobile-ALOHA 解读：移动＋双臂模仿学习的开源方案（含论文/代码/套件链接）

AI研究-116 特斯拉 HW3.0 与 HW4.0 区别详解：摄像头分辨率、FSD算力、雷达与Vision泊车

AI-调查研究-108-具身智能 机器人模型训练全流程详解：从预训练到强化学习与人类反馈

AI-调查研究-107-具身智能 强化学习与机器人训练数据格式解析：从状态-动作对到多模态轨迹标准

AI-调查研究-106-具身智能 机器人学习数据采集工具和手段：传感器、API、遥操作、仿真与真人示教全流程

AI-调查研究-105-具身智能 机器人学习数据采集：从示范视频到状态-动作对的流程解析

AI-调查研究-103-具身智能 技术全景图 Isaac Gym、Habitat Open X-Embodimen...

AI-调查研究-102-具身智能 智能机械臂、自动驾驶与人形机器人的模仿学习、强化学习与多模态融合趋势

AI-调查研究-101-具身智能 现代AI方法全解析：VLA、RT-1、RT-2、扩散模型 在机器人控制中的应用

AI-调查研究-100-具身智能 现代AI方法全解析：强化学习、模仿学习与Transformer在机器人控制中的应用

AI-调查研究-99-具身智能 融合感知技术全面解析（摄像头、LiDAR、IMU、雷达融合）

AI-调查研究-98-具身智能 视觉SLAM详解：ORB-SLAM、RTAB-Map、VINS-Fusion核心技...