核心要点

架构改进

采用万亿规模稀疏 MoE 架构,支持最长约 100 万 Token 上下文,原生多模态支持文本、图像、音频、视频帧、PDF 统一处理。

推理引擎

引入 thinking_level 推理深度控制参数和 Deep Think 模式,遇到极困难问题时动态投入额外计算资源探索多种解题路径。

基准测试表现

  • HLE 准确率:37-38%
  • ARC-AGI-2:31.1%(Deep Think 模式 45.1%)
  • ScreenSpot-Pro:72.7%
  • LiveCodeBench Elo:约 2439

用户体验

回答更简洁直接,摒弃过度客套与讨好,百万字符记忆窗口保证长对话一致性。