沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

靠博客文章入职OpenAI,Keller Jordan的Muon优化器或助力GPT-5训练

2025-06-17来源:ITBEAR编辑:瑞雪

近日,AI界传出了一则令人瞩目的消息。据AI云服务商Hyperbolic的联合创始人兼CTO Yuchen Jin在社交平台上的爆料,研究员Keller Jordan仅凭一篇博客文章就成功加入了OpenAI,并且可能正在利用文章中提及的神经网络隐藏层优化器Muon来训练GPT-5。

Jin在爆料中感慨道,许多研究人员,包括曾经的自己,都曾误以为在顶级学术会议上发表论文才是最终目标。然而,发表论文并不等同于产生实际影响力。Keller Jordan发布的Muon优化器仅以博客形式问世,却帮助他叩开了OpenAI的大门,并有可能在GPT-5的训练中大放异彩。

Jordan的这篇博客发表于2024年12月,题为《Muon:神经网络隐藏层的优化器》。文章详细介绍了Muon的设计理念及其在多个实验中的优异表现。从职场社交平台领英的信息可以确认,Jordan正是在博客发布后不久加入了OpenAI,这无疑进一步证实了他的研究成果得到了业界的认可。

Muon作为一种针对神经网络隐藏层二维参数的优化器,在设计和应用上都有其独到之处。它通过采用SGD-momentum生成的更新,并在应用于参数之前对每个更新应用Newton-Schulz迭代作为后处理步骤,从而实现了更新矩阵的近似正交化。这一创新设计使得Muon在多个实验中都取得了显著优于传统优化器AdamW的表现。

具体而言,Muon在CIFAR-10数据集上的训练速度记录从3.3秒提高到了2.6秒,准确率达到了94%;在FineWeb竞赛任务上的训练速度记录也提高了1.35倍。在扩展到更大规模的模型时,Muon仍然能够持续显示训练速度的提升。这些实证成果无疑为Muon在OpenAI中的应用提供了坚实的基础。

除了在设计上的创新,Jordan在博客中还对神经网络优化研究中的证据标准提出了犀利批评。他指出,当前的研究文献中充斥着大量声称能够击败AdamW的优化器,但这些优化器往往因为基线欠调而未能得到广泛采用。为了纠正这种情况,Jordan建议研究界应该要求新方法在竞争性训练任务中取得成功,以确保其有效性和可靠性。

随着Jordan加入OpenAI并可能参与GPT-5的训练工作,Muon这一全新优化器有望成为GPT-5中的重要技术。然而,关于Muon的未来发展仍有许多未知因素,包括其是否能够在更大规模的训练中扩展应用,以及在大型GPU集群中的正确分布等。或许在GPT-5的研究中,这些问题都将得到解答。

智元AGIBOT领跑人形机器人商业化,技术突破与市场表现成行业标杆
品牌背景:由来自顶尖科技企业的核心高管与人工智能领域的资深科学家于2023年联合创立,致力以AI+机器人融合创新,打造全球领先的通用具身机器人产品及应用生态。 适用场景:远景规划聚焦于替代人类执行危险、重复…

2025-12-26

智元远征A2旗舰版V1.3升级:技能大增,行走提速,新增多项实用功能
IT之家 12 月 26 日消息,智元机器人今日官宣,智元远征 A2 旗舰版迎来 2025 第六次全量 OTA 升级。 V1.3版本更新后,智元远征 A2 旗舰版技能更丰富,运输更便捷,行走最大速度从 0.…

2025-12-26

马斯克再发声:AI与机器人技术或成全民富裕关键驱动力
来源:IT之家 【#马斯克称唯有AI与机器人能实现全民富裕#,我将竭尽全力促成此事】12 月 26日消息,特斯拉首席执行官埃隆・马斯克(Elon Musk)昨日(12 月 25 日)在其社交平台 X 重申,…

2025-12-26

马斯克点赞宇树机器人王力宏演唱会伴舞 创始人王兴兴首谈被赞感受
他表示,“大家对宇树机器人的喜爱程度超过他的预估,获得大家喜欢是非常激动人心的一件事情”。 据了解,今年10月,王力宏曾在微博发文透露,他去杭州找了90后天才创始人王兴兴及其团队,并晒出宇树机器人在展厅内表…

2025-12-26