小米发布MiMo开源大模型，7B参数展现卓越推理力超越竞品-数码-沃资讯

小米大模型团队近日通过其官方公众号“Xiaomi MiMo”宣布了一项重要决定：正式开源专为推理任务定制的大模型——Xiaomi MiMo。这款模型在多项公开测评中，如数学推理和代码竞赛，均展现出了卓越的性能，尤其值得注意的是，它仅以7B参数就超越了OpenAI的o1-mini（闭源）以及阿里Qwen的QwQ-32B-Preview（开源），后者规模更为庞大。

MiMo之所以能在推理能力上取得如此显著的成就，关键在于其在预训练和后训练阶段所采取的创新策略。在预训练阶段，团队精心挑选并合成了大量富含推理信息的语料，总量达到了约200B tokens。通过分三个阶段逐步提升训练难度，MiMo累计接受了25T tokens的训练，这一过程极大地丰富了模型对推理模式的认知，为其强大的推理能力奠定了坚实的基础。

在后训练阶段，MiMo团队更是引入了高效且稳定的强化学习算法和框架，以进一步提升模型的推理性能。他们创造性地提出了Test Difficulty Driven Reward（测试难度驱动奖励）机制，这一机制有效地缓解了困难算法问题中奖励稀疏的难题。同时，他们还引入了Easy Data Re-Sampling（简单数据重采样）策略，以确保强化学习（RL）训练过程的稳定性。

为了进一步提高训练效率，MiMo团队还设计并实现了Seamless Rollout（无缝展开）系统。这一系统使得RL训练的速度提升了2.29倍，验证速度也提高了1.96倍，从而大大缩短了模型的开发周期。

Xiaomi MiMo的开源，无疑为推理任务的大模型研究注入了新的活力。它以其卓越的性能和创新的技术，为行业树立了新的标杆，也为广大开发者提供了宝贵的学习和研究资源。