标签: 大模型

共 12 篇文章

AI研究-130 Qwen2.5-Omni 实战：多场景落地清单与同期对标

办公助理、教育培训、编程与运维、搜索增强 RAG、设备控制/插件代理与陪伴娱乐。围绕 Thinker-Talker 双核、TMRoPE、Streaming DiT、文本/图像/音频/视频输入 + 文本/语音输出与 32k 上下文等要点，给出工程化取舍与对标脉络（与 GPT-4/Claude/Gemini 同期模型的优劣势对比）。同时总结 RAG 接入、Agent 调用、OCR/ASR/T...

2025/11/19

AI研究-129 Qwen2.5-Omni-7B 要点：显存、上下文、并发与成本

在 FP16≈14GB 显存下可稳态运行，配合 INT8/INT4 量化（INT4 <4GB）能在消费级 GPU 甚至边缘端部署；结合 FlashAttention 2 与多线程并发，单机可服务多会话低延迟。上下文默认 8k，长序 32k，实验系 Turbo 支持 ~1M token。文中罗列 Omni 在多模态综合/ASR/TTS/视觉/视频/MMLU/GSM8K/HumanEval 等评...

2025/11/18

AI研究-127 Qwen2.5-Omni 深解：Thinker-Talker 双核、TMRoPE 与流式语音

Qwen2.5-Omni（2024–2025）的 Thinker-Talker 双核架构做工程化拆解：统一 Transformer 解码器融合文本/图像/视频/音频，通过 TMRoPE 完成时间对齐；生成侧采用双轨自回归 + 流式 TTS（qwen-tts-tokenizer），支持多说话人音色解耦。训练数据在 Qwen2.5 体系上扩展（文本与多模态对齐数据），并结合分块输入、滑窗...

2025/11/16

AI-调查研究-91-具身智能多模态数据标注工具全景调研：从LabelStudio到3D点云视觉与点云标注工具

在机器人视觉与感知模型的训练中，高质量的多模态数据标注工具至关重要。当前主流方案涵盖了2D图像、视频、文本、音频及3D点云等多模态场景。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2025/9/30

AI-调查研究-75-具身智能从LLM到LBM：大模型驱动下的机器人分层控制架构

大型语言模型（LLM）与机器人实时控制的融合，正推动机器人智能化升级。LLM在指令理解、任务规划和环境适应性方面展现出巨大潜力，但直接应用也带来安全性、实时性等瓶颈。

2025/9/11

AI-调查研究-42-多模态大模型量化从FP32到INT4：多模态大模型量化路径（最终汇总）

多模态大模型量化方案调查提纲：从FP32到INT4。核心目标是模型能力保持、压缩效率50-75%、推理加速2-4倍。分析PTQ、QAT、QLoRA等方案对比。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2025/7/24

AI-调查研究-41-多模态大模型量化 Qwen2.5-VL：技术架构、能力评估与应用场景详解

Qwen2.5-VL是阿里推出的新一代多模态大模型，在视觉理解、视频分析及跨模态推理方面显著领先。提供3B至72B多个版本，适配从移动端到云端的部署需求。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2025/7/23

AI-调查研究-40-多模态大模型量化格局重塑：五大开源模型横评与技术对比

多模态大模型迅速发展，涌现出BLIP-2、MiniGPT-4、Flamingo、LLaVA和Qwen2.5-VL等代表性模型。分析各模型的架构创新、性能表现和技术特点。

2025/7/22

AI-调查研究-39-多模态大模型量化微调与量化如何协同最大化性能与效率?

在多模态大模型优化中，微调与量化的顺序选择直接影响最终模型的性能与效率。主要有三种策略：先微调后量化、先量化后微调、联合微调与量化。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2025/7/21

AI-调查研究-38-多模态大模型量化主流视觉语言任务的量化评估策略分析

为系统评估模型量化对性能的影响，需结合多个视觉-语言数据集与指标。常用数据集包括Flickr30k和MS COCO，采用BLEU、METEOR、ROUGE-L、CIDEr等指标。

2025/7/20

AI-调查研究-37-多模态大模型量化对视觉、语言与多模态任务性能的影响

模型量化将FP32权重压缩为低精度表示，可显著降低推理资源消耗。实验表明，量化后模型延迟降低60%、内存减少70%。分析量化对视觉、语言、跨模态任务的影响。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2025/7/19

AI-调查研究-36-多模态大模型量化全景解析：PTQ、QAT、INT4、LoRA与混合精度

本篇综述系统介绍了多模态模型中的主流量化技术，包括后训练量化（PTQ）与量化感知训练（QAT）的原理与实践，深入剖析低比特量化在边缘部署中的挑战与优化手段。本文深入分析原理与实践应用，帮助读者全面理解核心技术要点。

2025/7/18

标签: 大模型

AI研究-130 Qwen2.5-Omni 实战：多场景落地清单与同期对标

AI研究-129 Qwen2.5-Omni-7B 要点：显存、上下文、并发与成本

AI研究-127 Qwen2.5-Omni 深解：Thinker-Talker 双核、TMRoPE 与流式语音

AI-调查研究-91-具身智能 多模态数据标注工具全景调研：从LabelStudio到3D点云 视觉与点云标注工具

AI-调查研究-75-具身智能 从LLM到LBM：大模型驱动下的机器人分层控制架构

AI-调查研究-42-多模态大模型量化 从FP32到INT4：多模态大模型量化路径（最终汇总）

AI-调查研究-41-多模态大模型量化 Qwen2.5-VL：技术架构、能力评估与应用场景详解

AI-调查研究-40-多模态大模型量化 格局重塑：五大开源模型横评与技术对比

AI-调查研究-39-多模态大模型量化 微调与量化如何协同最大化性能与效率?

AI-调查研究-38-多模态大模型量化 主流视觉语言任务的量化评估策略分析

AI-调查研究-37-多模态大模型量化 对视觉、语言与多模态任务性能的影响