OpenAI于近日推出了一项名为SimpleQA的新基准,旨在评估语言模型在回答简短事实寻求问题时的准确性。这一举措是AI领域追求更高事实正确性的重要一步。
据悉,SimpleQA通过一系列严格的标准来确保评估的公正性和有效性。其中包括高正确性,即参考答案需经两名独立AI训练师验证;多样性,涵盖从科学技术到娱乐等多个主题;以及前沿挑战性,相比早期的基准,SimpleQA更能测试出前沿模型的实力。

SimpleQA还注重高效用户体验,问题与答案设计得简洁明了,便于快速操作和评分。通过OpenAI API等工具,用户可以轻松地进行模型评估。
OpenAI表示,尽管SimpleQA在短查询的受限设置中测量事实准确性,但其希望这一基准的开源能够推动AI研究在更广泛领域的应用和发展。同时,SimpleQA也揭示了当前语言模型在生成事实正确回答方面仍面临的挑战,即如何减少错误输出和未经证实的答案,这一问题也被称为“幻觉”。
通过SimpleQA的推出,OpenAI期望能够进一步促进语言模型的优化和完善,使其在更多场景中发挥出更大的价值。
王巍:古蜀文明既有吸收包容也有创新
在30日的“2024中华文化天府论坛”上,中国社会科学院学部委员、一级研究员王巍所作的《中华文明多元一体格局的形成》主旨演讲,就从龙信仰的出现讲起。王巍说,距今3800年前后,中原地区与夏王朝相关的二里头文化…
2024-10-31
中央第三生态环境保护督察组向四川移交第十二批信访件
华西都市报讯(四川日报全媒体记者张蒙)10月30日,中央第三生态环境保护督察组向四川移交第十二批群众信访举报件204件(来电举报101件,来信举报103件),其中重点关注14件。 截至10月30日10时…
2024-10-31
第五次太空会师 708090后航天员齐聚天宫
在载人飞船与空间站组合体成功实现自主快速交会对接后,当日中午12时51分,在轨执行任务的神舟十八号航天员乘组顺利打开“家门”,欢迎远道而来的神舟十九号航天员乘组入驻中国空间站,“70后”“80后”“90后”…
2024-10-31
大蒜味为什么“挥之不去”?
但我们在食用大蒜时,会进行切削加工,这时隔开它们的囊膜会被破坏,蒜氨酸就会在蒜氨酸酶的催化下,迅速转化成大蒜素。即使你刷过牙,但只要你的消化系统还在消化大蒜,大蒜的味道就会散发。 去菜市场买大蒜,会看到有紫…
2024-10-31
我国将大力实施可再生能源替代行动 六部门发布指导意见
国家发展改革委等六部门日前发布《关于大力实施可再生能源替代行动的指导意见》,促进绿色低碳循环发展经济体系建设,推动形成绿色低碳的生产方式和生活方式。全面提升可再生能源供给能力,加快推进以沙漠、戈壁、荒漠地区为…
2024-10-31