万亿参数模型MiMo-V2.5-Pro-UltraSpeed实现1000 tokens/s的推理速度意味着什么

宾果软件 . 发布于 2026-06-20 13:04:54 . 阅读 9

MiMo UltraSpeed模式发布


MiMo推出了新的UltraSpeed模式,基于原有的MiMo-V2.5-Pro版本,该版本拥有1.02T参数,未经过蒸馏或能力削减。通过重构推理系统,其速度提升了约10倍,峰值达到了1000+ tokens/s。


目前,该模式已开放内测申请,但名额有限,每日限量审批。截止时间为6月23日23:59(北京时间),有兴趣的用户可以尝试申请,但通过难度较大。



如何实现1000 tokens/s的速度


此次突破被定义为“模型与系统的终极协同设计”,并与推理引擎厂商TileRT合作,采用了三项关键技术:



  • 专家级FP4量化(MXFP4):仅对MoE的Expert层进行FP4量化,保持Attention等精度敏感模块的原精度。这种分层策略在压缩显存带宽的同时,将模型能力损失降到最低。

  • DFlash块并行推测解码:放弃传统的逐token串行预测,改为整块预测并行验证。在代码和数学等高重复性场景下,平均每轮可以一次性确认6~7个token,显著提高吞吐量。

  • TileRT运行时系统:定制化的编译引擎采用“持久核心 + 异构流水线”架构,消除算子切换延迟,使GPU始终保持满载状态。


最终结果是,在单节点8张标准GPU的情况下,峰值解码速度实测接近1200 tokens/s,这是目前公开披露中1T级模型最快的推理速度。


这意味着在1秒钟内,模型能够“读入、理解并生成”大约1000个文字单位的数据。


基本参数概览











































项目 数值
总参数量 1.02T(MoE 架构)
激活参数 42B
上下文窗口 1,000,000 tokens
UltraSpeed 峰值速度 1000+ tokens/s(实测 ~1200)
标准 API 速度 ~100 tokens/s
SWE-bench Verified 78.9%
SWE-bench Pro 57.2%(超过 Claude Opus 4.6 的 53.4%)
API 定价(标准) 输入 $1.00/M · 输出 $3.00/M tokens

与其他模型的比较


与GLM-5.1的对比


GLM-5.1由智谱于4月发布,与MiMo存在直接竞争关系。综合评分方面,MiMo得分为86分,GLM为82分,差距不大,但在代码和Agent方向上,MiMo表现更强。


GLM在知识问答方面有优势,如果需求主要集中在RAG或问答,GLM仍是一个值得考虑的选择。不过,上下文窗口方面,MiMo为1M tokens,而GLM仅为203K tokens。





































维度 MiMo-V2.5-Pro GLM-5.1
综合评分(/100) 86 82
Agentic 任务均分 68.4 65.3
编码指数 45.5(开源第一) 低于 MiMo
知识问答 略逊 更强
上下文窗口 1M tokens 203K tokens

与GPT-5.5 Pro的对比


GPT-5.5 Pro由OpenAI于4月24日发布,而MiMo则在4月27日开源,两者几乎同期推出。


在Coding能力方面,两者处于同一梯队。SWE-bench Pro测试中,MiMo得分为57.2%,GPT-5.5得分在55%到58%之间。不过,MiMo在token消耗上更节省,每条轨迹约70,000 tokens,比GPT-5.5同级别少了40%到60%。


最重要的是,MiMo是开源的,可以自部署,而GPT-5.5则是闭源API。对于有私有化需求的团队来说,这一点非常关键。


在速度方面,UltraSpeed无疑是当前最快的,或者说是全球数一数二的。


具体来说,目前普遍的推理速度为50-200 tokens/s。



  • 50〜100 TPS:适用于对话、总结等普通任务,与人类阅读速度相比是“基本无感延迟”。

  • 100〜300 TPS:响应更快、感觉更流畅(特别是在长回复或实时互动场景)。

  • 300+ TPS:适合企业级大规模部署,提供更低的延迟成本。

  • 上千 TPS:专用推理硬件上的极限性能,对实时agent和大数据处理具有重要意义。


Coding Agent场景中的应用价值


在AI编程中,速度的重要性尤为突出。


Agent生产力 ≈ 任务完成率 × 单步速度 × 并发能力


单步速度从约100 tokens/s提升到1000+,等待代码补全的时间从20秒缩短至2秒。“思考-执行-反馈”的循环密度提升了一个数量级,对于需要多轮tool call和反复跑测试的任务来说,这是一个结构性的加速,而不仅仅是锦上添花。


此外,MiMo-V2.5-Pro本身已经针对Agentic进行了优化,SWE-bench Pro得分为57.2%,Terminal-Bench得分为68.4,与顶级闭源模型持平。


现在UltraSpeed将这一能力提升到了实时速度,值得试用。


如何申请


申请入口:platform.xiaomimimo.com/ultraspeed


截止时间:2026年6月23日23:59(北京时间)


审批节奏:每日限量,滚动审批


优先通过:有真实业务需求的企业用户和专业开发者机构


申请时请如实填写使用场景,如Coding Agent集成、IDE插件、CI/CD管道等。有具体用量预期和技术背景的申请者,审批优先级更高。