全球最大API聚合平台OpenRouter上,一款代号为“Hunter Alpha”的神秘大模型近期引发广泛关注。该模型在本月一度登顶大模型调用榜,其性能表现引发网友诸多猜测,不少人认为它可能是“DeepSeek V4”的早期版本。
今日凌晨,小米正式宣布“Hunter Alpha”为其旗下产品,并同步推出MiMo-V2-Pro、Omni和TTS三款大模型。这三款模型目前开放限时一周的免费体验,用户可通过指定渠道进行申请。
小米MiMo大模型负责人罗福莉随后发布长文,详细阐述了产品研发背后的故事。她表示,这是小米首款专为智能体时代打造的全栈产品系列,其研发过程充满挑战与惊喜。从聊天模式到智能代理模式的快速转变,让团队经历了既激动人心又痛苦不堪的研发阶段。
据罗福莉介绍,1T基础模型的训练工作早在几个月前就已启动,最初目标是提升长上下文推理效率。团队通过引入混合注意力机制,在保证创新性的同时避免了过度扩张。该模型具备1M上下文窗口,并采用MTP推理技术实现超低延迟和成本。这些架构决策并非临时起意,而是团队提前布局的结构性优势。
研发过程中,一个复杂的智能体框架给团队带来深刻影响。罗福莉将其描述为“精心编排的语境”,首次体验时就让她感到震惊。为推动团队接受这一框架,她甚至下达强硬指令:要求团队成员每日对话次数必须达到100次以上。这一举措成功激发了团队的想象力,并直接转化为研究效率的提升。
在分享研发经验时,罗福莉强调了多个关键因素。她指出,骨干网和基础设施研究需要长期战略决心,通常需要一年时间才能看到回报。同时,训练后的敏捷性也至关重要,这包括产品直觉驱动评估、缩短迭代周期以及及早实现范式转变。好奇心、技术直觉、执行力和全身心投入也是不可或缺的要素。
对于开源计划,罗福莉表示,新的MiMo-V2系列模型将在确保足够稳定后进行开源。这一承诺体现了小米对技术共享和社区建设的重视,也为开发者提供了更多期待。