沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

OpenAI再夺7金,o1-preview成首个AI Kaggle特级大师!

2024-10-12来源:ITBEAR编辑:瑞雪

科技媒体The Decoder于昨日发布了一篇引人注目的报道,披露了OpenAI公司最新推出的MLE-bench基准。这一基准旨在评估AI智能体在开发机器学习解决方案方面的实力,覆盖了75个Kaggle竞赛,涵盖了自然语言处理、计算机视觉和信号处理等多个领域。

MLE-bench专注于两个核心领域:选择具有挑战性的任务,这些任务代表着当前机器学习的发展前沿;比较AI与人类的表现,以此评估AI在特定任务中的能力。

OpenAI在MLE-bench上测试了多个AI模型和智能体框架,其中使用AIDE框架的o1-preview模型表现尤为出色,在16.9%的比赛中至少获得了一枚铜牌,这一成绩甚至超越了Anthropic的Claude 3.5 Sonnet。

值得注意的是,MLE-bench上的任务具有现实世界的应用价值,如预测COVID-19 mRNA疫苗的降解或解码古代卷轴等。而获得5枚金牌即可评为“Grandmaster”特级大师,o1-preview模型在测试中更是获得了7枚金牌。

然而,OpenAI也承认MLE-bench存在局限性,它并未涵盖AI研究与开发的所有方面,而是主要集中在那些具有明确问题和简单评估指标的任务上。

尽管如此,MLE-bench基准的推出无疑为AI在机器学习领域的发展提供了新的推动力。该基准现已在GitHub上发布,OpenAI希望通过这一工具,进一步推动AI在机器学习领域的创新与应用。

37℃恒温超仿生!AI伴侣机器人Eva.i开启众筹,定义情感交互新形态
根据研发团队的构想,机器人或将带来前所未有的“真实体感”交互:只要你触摸它的手,它就能被激活;当它害羞或兴奋时,脸颊会微微发烫;它可以通过调整自己的"呼吸频率"来和你的呼吸同步;拥抱它时,它能瞬间读取你的心…

2025-12-29

2025年发黑热处理服务商优选指南:南通汉科等六家企业技术实力与适配场景全解析
推荐理由: ① 深厚的技术积淀与研发导向:公司拥有超过十年的热处理技术经验积累,并持续进行技术升级,例如早年便从国外引进先进的渗氮炉等专业设备,构建了涵盖渗碳、碳氮共渗、真空渗碳、等温淬火、深冷处理等在内的…

2025-12-29

吴晓波:未来中国四大10万亿级市场 具身智能机器人潜力巨大
来源:新浪科技 新浪科技讯 12月28日晚间消息,2025吴晓波科技人文秀举行,知名财经作家吴晓波发表演讲。 吴晓波表示,未来中国将会有四个10万亿级市场,分别是新能源汽车、房地产、养老银发和具身智能机器人。…

2025-12-29