沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

OpenAI新基准FrontierScience出炉:AI科研能力大检验,距一流科学家尚远

2025-12-18来源:快讯编辑:瑞雪

人工智能在科研领域的表现再次成为焦点。OpenAI近日推出全新基准测试FrontierScience,通过物理、化学、生物三大领域的博士级难题,检验AI系统能否突破知识记忆层面,实现真正的科学推理能力。这项测试揭示了一个关键结论:即便在标准化考试中表现优异,当前AI距离成为独立科研工作者仍有显著差距。

该基准测试包含700余道文本型题目,分为竞赛赛道与研究赛道两大模块。竞赛赛道聚焦100道短答案题目,要求在严格约束条件下完成精准推理;研究赛道则设置60个开放式子任务,涵盖量子电动力学、合成有机化学等前沿方向,需在无标准答案的情况下构建完整逻辑链条。测试特别设置"黄金组"160道题目作为核心评估样本,其中研究赛道题目由45位领域专家设计,采用10分制评分标准,7分以上视为通过。

测试结果显示,GPT-5.2在竞赛赛道取得77%的正确率,研究赛道得分25%,暂居领先地位;Gemini 3 Pro以76%的竞赛成绩紧随其后。但深入分析错误类型发现,前沿模型普遍存在推理断层、概念混淆和计算偏差等问题。例如在量子物理题目中,某模型因混淆"自旋轨道耦合"与"角动量守恒"导致全盘错误;有机化学合成路径规划中,另一模型因忽视立体选择性反应条件而设计出不可行方案。

测试设计团队刻意排除现有模型能够解答的题目,使得评估标准更为严苛。为确保评分客观性,研究赛道采用GPT-5作为自动评分系统,通过对照专家制定的评分细则进行逐项判定。尽管这种设计可能对OpenAI自家模型形成额外挑战,但开发团队强调这有助于更真实反映模型在未知领域的适应能力。测试数据表明,模型思考时间与准确率呈正相关,在给予充分推理时间的情况下,部分题目的正确率可提升15-20个百分点。

这项基准测试也暴露出当前评估体系的局限性。OpenAI坦言,现有测试框架将复杂科研过程简化为可控题目,如同"用显微镜观察森林",难以衡量模型提出创新假设的能力,也无法评估其处理多模态数据或指导实验操作的实际价值。测试团队正在开发扩展题库,计划纳入更多跨学科场景和真实实验数据,同时建立长期追踪机制,观察AI系统如何切实辅助科研人员提升工作效率。

无问芯穹智能体服务平台发布,助力企业智能体落地实现创造力跃升
得益于长期的前沿基础设施技术积淀,无问芯穹智能体服务平台不仅将行业知识模板化,内置了包括代码、研究和多模态等5种以上的Agent能力模板,帮助智能体落地在从0到1的起始阶段,就拥有优秀的基础效果;而模板化的…

2025-12-18

宁德时代产线新突破:“小墨”机器人规模化应用开启智能制造新篇章
【大河财立方消息】12月17日,据宁德时代消息,近日,全球首条实现人形具身智能机器人规模化落地的新能源动力电池PACK生产线,在宁德时代中州基地正式投入运行。 宁德时代称,未来,将以“小墨”的成功落地为起点,…

2025-12-18

AI泡沫消散后:2026年企业以数据为刃,七大趋势破局增长困局
安全与信任始终是核心要素,当与精准控制和严格治理相结合时,就能构建出让团队能够自信决策并取得显著成效的环境。2026年,企业应该更加注重“精准发力”,以数据为核心驱动力,以现代化架构为支撑,让技术真正服务于业…

2025-12-17

技术赋能体验升级:数字内容体验云平台的多维价值解析
数字内容体验云平台是集内容创作、管理、分发和消费于一体的综合性解决方案,旨在通过技术驱动提升用户体验。为创作者提供全流程支持:从创意生成到内容分发,平台为内容创作者提供了一站式的技术与工具支持。 构建生态…

2025-12-17

四相科技获国际联盟认可 凭技术实力与合规优势领跑国内UWB赛道
四相科技此次加入FiRa联盟,标志着其UWB技术能力获得国际国际权威认可,也意味着公司将深度参与全球UWB技术标准制定与生态共建,为推动行业规范化、互操作性及创新应用贡献中国力量。此次同步加入FiRa与Bl…

2025-12-17

中国电信发力AI机器人领域:技术突破引领,多场景应用加速落地
在这一浪潮中,作为建设数字中国主力军的中国电信,正全面拥抱人工智能,并通过战略升级与持续创新,推动产业从“可用”迈向“好用”。大模型正成为重要的技术驱动,基于多模态数据提升机器人的感知与决策能力,推动其自主学…

2025-12-17

苹果iPhone 17e或2026年春季登场:C1X芯片升级 磁吸充电成亮点
IT之家 12 月 17 日消息,科技媒体 The Information 昨日(12 月 16 日)发布博文,爆料称苹果将于 2026年春季推出 iPhone 17e,5G 基带芯片升级 C1X 之外,还…

2025-12-17