AI基准战再起波澜：OpenAI质疑xAI Grok 3测试结果真实性-汽车-沃资讯

近日，AI领域掀起了一场关于基准测试结果真实性的风波。争议的焦点集中在埃隆·马斯克旗下的xAI公司最新发布的AI模型Grok 3上。一名OpenAI员工对xAI公司公布的Grok 3在AIME 2025基准测试中的表现提出了质疑，认为其测试结果具有误导性。

xAI公司在其官方博客上发布了一张图表，展示了Grok 3的两个版本——Grok 3 Reasoning Beta和Grok 3 mini Reasoning，在AIME 2025基准测试中的卓越表现。尽管AIME作为AI基准测试的有效性受到了一些专家的质疑，但它仍然被广泛用于评估AI模型的数学能力。这张图表显示，Grok 3的两个版本在AIME 2025上的表现超越了OpenAI当前最强的可用模型o3-mini-high。

然而，OpenAI员工迅速作出回应，在社交媒体平台上指出xAI的图表并未包含o3-mini-high在“cons@64”条件下的得分。“cons@64”即允许模型对每个问题尝试64次，并将出现频率最高的答案作为最终答案，这种方式通常会显著提升模型的基准测试分数。因此，如果图表中省略了这一数据，就可能导致误解。

事实上，在AIME 2025的“@1”条件下（即模型首次尝试的得分），Grok 3 Reasoning Beta和Grok 3 mini Reasoning的得分均低于o3-mini-high。Grok 3 Reasoning Beta的表现也略逊于OpenAI的o1模型在“中等计算”设置下的得分。尽管如此，xAI仍坚持宣传Grok 3为“世界上最聪明的AI”。

面对质疑，xAI的联合创始人伊戈尔·巴布什金在社交媒体上进行了辩护，他指出OpenAI过去也曾发布过类似的具有误导性的基准测试图表，尽管这些图表是用于比较OpenAI自身模型的表现。这一回应并未平息争议，反而进一步加剧了双方的对立。

在这场争议中，一位中立的第三方重新绘制了一张更为准确的图表，揭示了双方模型在AIME 2025基准测试中的真实表现。这张图表的出现，为公众提供了一个更为客观、全面的视角来审视这场风波。

然而，这场风波也暴露出AI基准测试在传达模型局限性和优势方面的不足。AI研究员内森·兰伯特在一篇文章中指出，或许最重要的指标仍然未知：每个模型达到最佳分数所需的计算（和金钱）成本。这一观点引发了业界的广泛共鸣，也让人们开始重新审视AI基准测试的意义和价值。

从宠物到畜牧：宠智灵AI大模型如何重塑畜牧业智能化新生态

依托多模态感知与长期行为建模能力，宠智灵AI大模型在畜牧业形成了七大核心应用场景，精准覆盖个体管理、健康保障、繁殖优化、成本控制、群体管控、人力减负及决策支撑全链条，全方位破解行业痛点。这一档案体系构建起统…

2026-01-07

Halliday亮相CES 2026：轻量化AI眼镜解锁全场景智能交互新体验

来自中国的智能穿戴品牌Halliday登陆这一全球科技舞台，携其轻量化AI眼镜重磅亮相，以“极致佩戴舒适度+全场景语音交互”为核心卖点，凭借接入大模型的智能助手服务，在一众AI穿戴设备中脱颖而出，成为展会焦点…

2026-01-07

具身智能机器人“历小博”亮相上海历史博物馆开启智慧导览新体验

中新社上海1月6日电 (记者王笈)具身智能机器人“历小博”6日在上海市历史博物馆正式“上岗”。上海国际文化装备产业园管理(集团)有限公司总经理任晓辉接受中新社记者采访时表示，机器人落地博物馆场景，要考虑讲…

2026-01-07

移动电源新国标来袭，沁恒方案助力充电宝轻松升级合规无忧

现有方案升级：只需两颗芯片，轻松升级新国标与传统方案相比，新国标在充电宝电池管理、信息显示等方面要求更加严格。沁恒的USB透传方案支持多种通信接口到USB的信息互传，无需USB编程，充电宝主控使用I2C等…

2026-01-07

亚辉龙牵手脑机星链布局脑机接口领域上交所发函追问合作细节

2026-01-07

2025抖音科技生态：创作者激增，算力芯片助力科技传播与创新双飞跃

2026-01-07

天下秀递表港交所：借微博生态与AI技术，开启全球红人经济新征程

2026-01-07

科大讯飞HG-05与HB-03智能助听器对比：轻中度选HB-03，复杂场景选HG-05

科大讯飞HG-05搭载了品牌最新的助听专用AI芯片，具备强大的运算能力和多通道声音处理能力。这使得HG-05能够运行更复杂的AI算法，提升声音的解析与重构能力，尤其在嘈杂环境中表现尤为出色。在一些高级功能上有…

2026-01-07

潮汕品牌HAN RIVER深耕东南亚：借TikTok实现超三千万美金营收

2026-01-07