万亿参数模型MiMo-V2.5-Pro-UltraSpeed实现1000 tokens/s的推理速度意味着什么 - 文章动态 - 企业数字化服务商&软件开发服务商&郑州小程序开发微信开发

MiMo UltraSpeed模式发布

MiMo推出了新的UltraSpeed模式，基于原有的MiMo-V2.5-Pro版本，该版本拥有1.02T参数，未经过蒸馏或能力削减。通过重构推理系统，其速度提升了约10倍，峰值达到了1000+ tokens/s。

目前，该模式已开放内测申请，但名额有限，每日限量审批。截止时间为6月23日23:59（北京时间），有兴趣的用户可以尝试申请，但通过难度较大。

此次突破被定义为“模型与系统的终极协同设计”，并与推理引擎厂商TileRT合作，采用了三项关键技术：

专家级FP4量化（MXFP4）：仅对MoE的Expert层进行FP4量化，保持Attention等精度敏感模块的原精度。这种分层策略在压缩显存带宽的同时，将模型能力损失降到最低。

DFlash块并行推测解码：放弃传统的逐token串行预测，改为整块预测并行验证。在代码和数学等高重复性场景下，平均每轮可以一次性确认6～7个token，显著提高吞吐量。

最终结果是，在单节点8张标准GPU的情况下，峰值解码速度实测接近1200 tokens/s，这是目前公开披露中1T级模型最快的推理速度。

这意味着在1秒钟内，模型能够“读入、理解并生成”大约1000个文字单位的数据。

GLM-5.1由智谱于4月发布，与MiMo存在直接竞争关系。综合评分方面，MiMo得分为86分，GLM为82分，差距不大，但在代码和Agent方向上，MiMo表现更强。

GLM在知识问答方面有优势，如果需求主要集中在RAG或问答，GLM仍是一个值得考虑的选择。不过，上下文窗口方面，MiMo为1M tokens，而GLM仅为203K tokens。

GPT-5.5 Pro由OpenAI于4月24日发布，而MiMo则在4月27日开源，两者几乎同期推出。

在Coding能力方面，两者处于同一梯队。SWE-bench Pro测试中，MiMo得分为57.2%，GPT-5.5得分在55%到58%之间。不过，MiMo在token消耗上更节省，每条轨迹约70,000 tokens，比GPT-5.5同级别少了40%到60%。

最重要的是，MiMo是开源的，可以自部署，而GPT-5.5则是闭源API。对于有私有化需求的团队来说，这一点非常关键。

在速度方面，UltraSpeed无疑是当前最快的，或者说是全球数一数二的。

具体来说，目前普遍的推理速度为50-200 tokens/s。

在AI编程中，速度的重要性尤为突出。

Agent生产力 ≈ 任务完成率 × 单步速度 × 并发能力

单步速度从约100 tokens/s提升到1000+，等待代码补全的时间从20秒缩短至2秒。“思考-执行-反馈”的循环密度提升了一个数量级，对于需要多轮tool call和反复跑测试的任务来说，这是一个结构性的加速，而不仅仅是锦上添花。

此外，MiMo-V2.5-Pro本身已经针对Agentic进行了优化，SWE-bench Pro得分为57.2%，Terminal-Bench得分为68.4，与顶级闭源模型持平。

现在UltraSpeed将这一能力提升到了实时速度，值得试用。

申请入口：platform.xiaomimimo.com/ultraspeed

截止时间：2026年6月23日23:59（北京时间）

审批节奏：每日限量，滚动审批

优先通过：有真实业务需求的企业用户和专业开发者机构

申请时请如实填写使用场景，如Coding Agent集成、IDE插件、CI/CD管道等。有具体用量预期和技术背景的申请者，审批优先级更高。