MiMo UltraSpeed模式发布
MiMo推出了新的UltraSpeed模式,基于原有的MiMo-V2.5-Pro版本,该版本拥有1.02T参数,未经过蒸馏或能力削减。通过重构推理系统,其速度提升了约10倍,峰值达到了1000+ tokens/s。
目前,该模式已开放内测申请,但名额有限,每日限量审批。截止时间为6月23日23:59(北京时间),有兴趣的用户可以尝试申请,但通过难度较大。

如何实现1000 tokens/s的速度
此次突破被定义为“模型与系统的终极协同设计”,并与推理引擎厂商TileRT合作,采用了三项关键技术:
- 专家级FP4量化(MXFP4):仅对MoE的Expert层进行FP4量化,保持Attention等精度敏感模块的原精度。这种分层策略在压缩显存带宽的同时,将模型能力损失降到最低。
- DFlash块并行推测解码:放弃传统的逐token串行预测,改为整块预测并行验证。在代码和数学等高重复性场景下,平均每轮可以一次性确认6~7个token,显著提高吞吐量。
- TileRT运行时系统:定制化的编译引擎采用“持久核心 + 异构流水线”架构,消除算子切换延迟,使GPU始终保持满载状态。
最终结果是,在单节点8张标准GPU的情况下,峰值解码速度实测接近1200 tokens/s,这是目前公开披露中1T级模型最快的推理速度。
这意味着在1秒钟内,模型能够“读入、理解并生成”大约1000个文字单位的数据。
基本参数概览
| 项目 | 数值 |
|---|---|
| 总参数量 | 1.02T(MoE 架构) |
| 激活参数 | 42B |
| 上下文窗口 | 1,000,000 tokens |
| UltraSpeed 峰值速度 | 1000+ tokens/s(实测 ~1200) |
| 标准 API 速度 | ~100 tokens/s |
| SWE-bench Verified | 78.9% |
| SWE-bench Pro | 57.2%(超过 Claude Opus 4.6 的 53.4%) |
| API 定价(标准) | 输入 $1.00/M · 输出 $3.00/M tokens |
与其他模型的比较
与GLM-5.1的对比
GLM-5.1由智谱于4月发布,与MiMo存在直接竞争关系。综合评分方面,MiMo得分为86分,GLM为82分,差距不大,但在代码和Agent方向上,MiMo表现更强。
GLM在知识问答方面有优势,如果需求主要集中在RAG或问答,GLM仍是一个值得考虑的选择。不过,上下文窗口方面,MiMo为1M tokens,而GLM仅为203K tokens。
| 维度 | MiMo-V2.5-Pro | GLM-5.1 |
|---|---|---|
| 综合评分(/100) | 86 | 82 |
| Agentic 任务均分 | 68.4 | 65.3 |
| 编码指数 | 45.5(开源第一) | 低于 MiMo |
| 知识问答 | 略逊 | 更强 |
| 上下文窗口 | 1M tokens | 203K tokens |
与GPT-5.5 Pro的对比
GPT-5.5 Pro由OpenAI于4月24日发布,而MiMo则在4月27日开源,两者几乎同期推出。
在Coding能力方面,两者处于同一梯队。SWE-bench Pro测试中,MiMo得分为57.2%,GPT-5.5得分在55%到58%之间。不过,MiMo在token消耗上更节省,每条轨迹约70,000 tokens,比GPT-5.5同级别少了40%到60%。
最重要的是,MiMo是开源的,可以自部署,而GPT-5.5则是闭源API。对于有私有化需求的团队来说,这一点非常关键。
在速度方面,UltraSpeed无疑是当前最快的,或者说是全球数一数二的。
具体来说,目前普遍的推理速度为50-200 tokens/s。
- 50〜100 TPS:适用于对话、总结等普通任务,与人类阅读速度相比是“基本无感延迟”。
- 100〜300 TPS:响应更快、感觉更流畅(特别是在长回复或实时互动场景)。
- 300+ TPS:适合企业级大规模部署,提供更低的延迟成本。
- 上千 TPS:专用推理硬件上的极限性能,对实时agent和大数据处理具有重要意义。
Coding Agent场景中的应用价值
在AI编程中,速度的重要性尤为突出。
Agent生产力 ≈ 任务完成率 × 单步速度 × 并发能力
单步速度从约100 tokens/s提升到1000+,等待代码补全的时间从20秒缩短至2秒。“思考-执行-反馈”的循环密度提升了一个数量级,对于需要多轮tool call和反复跑测试的任务来说,这是一个结构性的加速,而不仅仅是锦上添花。
此外,MiMo-V2.5-Pro本身已经针对Agentic进行了优化,SWE-bench Pro得分为57.2%,Terminal-Bench得分为68.4,与顶级闭源模型持平。
现在UltraSpeed将这一能力提升到了实时速度,值得试用。
如何申请
申请入口:platform.xiaomimimo.com/ultraspeed
截止时间:2026年6月23日23:59(北京时间)
审批节奏:每日限量,滚动审批
优先通过:有真实业务需求的企业用户和专业开发者机构
申请时请如实填写使用场景,如Coding Agent集成、IDE插件、CI/CD管道等。有具体用量预期和技术背景的申请者,审批优先级更高。