沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

小米发布MiMo开源大模型,7B参数展现卓越推理力超越竞品

2025-04-30来源:ITBEAR编辑:瑞雪

小米大模型团队近日通过其官方公众号“Xiaomi MiMo”宣布了一项重要决定:正式开源专为推理任务定制的大模型——Xiaomi MiMo。这款模型在多项公开测评中,如数学推理和代码竞赛,均展现出了卓越的性能,尤其值得注意的是,它仅以7B参数就超越了OpenAI的o1-mini(闭源)以及阿里Qwen的QwQ-32B-Preview(开源),后者规模更为庞大。

MiMo之所以能在推理能力上取得如此显著的成就,关键在于其在预训练和后训练阶段所采取的创新策略。在预训练阶段,团队精心挑选并合成了大量富含推理信息的语料,总量达到了约200B tokens。通过分三个阶段逐步提升训练难度,MiMo累计接受了25T tokens的训练,这一过程极大地丰富了模型对推理模式的认知,为其强大的推理能力奠定了坚实的基础。

在后训练阶段,MiMo团队更是引入了高效且稳定的强化学习算法和框架,以进一步提升模型的推理性能。他们创造性地提出了Test Difficulty Driven Reward(测试难度驱动奖励)机制,这一机制有效地缓解了困难算法问题中奖励稀疏的难题。同时,他们还引入了Easy Data Re-Sampling(简单数据重采样)策略,以确保强化学习(RL)训练过程的稳定性。

为了进一步提高训练效率,MiMo团队还设计并实现了Seamless Rollout(无缝展开)系统。这一系统使得RL训练的速度提升了2.29倍,验证速度也提高了1.96倍,从而大大缩短了模型的开发周期。

Xiaomi MiMo的开源,无疑为推理任务的大模型研究注入了新的活力。它以其卓越的性能和创新的技术,为行业树立了新的标杆,也为广大开发者提供了宝贵的学习和研究资源。