沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

AI基准战再起波澜:OpenAI质疑xAI Grok 3测试结果真实性

2025-02-23来源:ITBEAR编辑:瑞雪

近日,AI领域掀起了一场关于基准测试结果真实性的风波。争议的焦点集中在埃隆·马斯克旗下的xAI公司最新发布的AI模型Grok 3上。一名OpenAI员工对xAI公司公布的Grok 3在AIME 2025基准测试中的表现提出了质疑,认为其测试结果具有误导性。

xAI公司在其官方博客上发布了一张图表,展示了Grok 3的两个版本——Grok 3 Reasoning Beta和Grok 3 mini Reasoning,在AIME 2025基准测试中的卓越表现。尽管AIME作为AI基准测试的有效性受到了一些专家的质疑,但它仍然被广泛用于评估AI模型的数学能力。这张图表显示,Grok 3的两个版本在AIME 2025上的表现超越了OpenAI当前最强的可用模型o3-mini-high。

然而,OpenAI员工迅速作出回应,在社交媒体平台上指出xAI的图表并未包含o3-mini-high在“cons@64”条件下的得分。“cons@64”即允许模型对每个问题尝试64次,并将出现频率最高的答案作为最终答案,这种方式通常会显著提升模型的基准测试分数。因此,如果图表中省略了这一数据,就可能导致误解。

事实上,在AIME 2025的“@1”条件下(即模型首次尝试的得分),Grok 3 Reasoning Beta和Grok 3 mini Reasoning的得分均低于o3-mini-high。Grok 3 Reasoning Beta的表现也略逊于OpenAI的o1模型在“中等计算”设置下的得分。尽管如此,xAI仍坚持宣传Grok 3为“世界上最聪明的AI”。

面对质疑,xAI的联合创始人伊戈尔·巴布什金在社交媒体上进行了辩护,他指出OpenAI过去也曾发布过类似的具有误导性的基准测试图表,尽管这些图表是用于比较OpenAI自身模型的表现。这一回应并未平息争议,反而进一步加剧了双方的对立。

在这场争议中,一位中立的第三方重新绘制了一张更为准确的图表,揭示了双方模型在AIME 2025基准测试中的真实表现。这张图表的出现,为公众提供了一个更为客观、全面的视角来审视这场风波。

然而,这场风波也暴露出AI基准测试在传达模型局限性和优势方面的不足。AI研究员内森·兰伯特在一篇文章中指出,或许最重要的指标仍然未知:每个模型达到最佳分数所需的计算(和金钱)成本。这一观点引发了业界的广泛共鸣,也让人们开始重新审视AI基准测试的意义和价值。

从宠物到畜牧:宠智灵AI大模型如何重塑畜牧业智能化新生态
依托多模态感知与长期行为建模能力,宠智灵AI大模型在畜牧业形成了七大核心应用场景,精准覆盖个体管理、健康保障、繁殖优化、成本控制、群体管控、人力减负及决策支撑全链条,全方位破解行业痛点。这一档案体系构建起统…

2026-01-07

Halliday亮相CES 2026:轻量化AI眼镜解锁全场景智能交互新体验
来自中国的智能穿戴品牌Halliday登陆这一全球科技舞台,携其轻量化AI眼镜重磅亮相,以“极致佩戴舒适度+全场景语音交互”为核心卖点,凭借接入大模型的智能助手服务,在一众AI穿戴设备中脱颖而出,成为展会焦点…

2026-01-07

具身智能机器人“历小博”亮相上海历史博物馆 开启智慧导览新体验
中新社上海1月6日电 (记者 王笈)具身智能机器人“历小博”6日在上海市历史博物馆正式“上岗”。 上海国际文化装备产业园管理(集团)有限公司总经理任晓辉接受中新社记者采访时表示,机器人落地博物馆场景,要考虑讲…

2026-01-07

移动电源新国标来袭,沁恒方案助力充电宝轻松升级合规无忧
现有方案升级:只需两颗芯片,轻松升级新国标与传统方案相比,新国标在充电宝电池管理、信息显示等方面要求更加严格。 沁恒的USB透传方案支持多种通信接口到USB的信息互传,无需USB编程,充电宝主控使用I2C等…

2026-01-07

科大讯飞HG-05与HB-03智能助听器对比:轻中度选HB-03,复杂场景选HG-05
科大讯飞HG-05搭载了品牌最新的助听专用AI芯片,具备强大的运算能力和多通道声音处理能力。这使得HG-05能够运行更复杂的AI算法,提升声音的解析与重构能力,尤其在嘈杂环境中表现尤为出色。在一些高级功能上有…

2026-01-07