核心要点
架构改进
采用万亿规模稀疏 MoE 架构,支持最长约 100 万 Token 上下文,原生多模态支持文本、图像、音频、视频帧、PDF 统一处理。
推理引擎
引入 thinking_level 推理深度控制参数和 Deep Think 模式,遇到极困难问题时动态投入额外计算资源探索多种解题路径。
基准测试表现
- HLE 准确率:37-38%
- ARC-AGI-2:31.1%(Deep Think 模式 45.1%)
- ScreenSpot-Pro:72.7%
- LiveCodeBench Elo:约 2439
用户体验
回答更简洁直接,摒弃过度客套与讨好,百万字符记忆窗口保证长对话一致性。