沃资讯
科技 财经 汽车 游戏 数码 资讯

OpenAI发布SimpleQA新基准,助力语言模型准确性大提升!

2024-10-31来源:ITBEAR编辑:瑞雪

为解决语言模型在回答问题时可能产生的“幻觉”问题,美国知名人工智能研究机构OpenAI近日开源了一款新基准——SimpleQA。

SimpleQA专注于评估模型在简短、事实性问题上的准确性,共包含4326个精心设计的问题。然而,它仅限于评估有确切答案的短查询。

OpenAI强调,虽然SimpleQA能有效衡量模型在短回答中的事实准确性,但其在处理长篇或多事实内容方面的表现仍需进一步探究。通过开源SimpleQA,OpenAI希望能推动AI研究的进步,提升语言模型的可靠性和信任度。

该基准的特点包括确保答案的正确性,问题的答案均经过两名独立AI训练师的严格验证;覆盖多元主题,从科技到娱乐,体现其广泛的适用性;以及对前沿模型的挑战性,如GPT-4等先进模型,在SimpleQA面前都将面临严峻的考验。

SimpleQA还注重用户体验,简洁明了的问题和答案设计使得用户能够轻松操作和评分。同时,借助OpenAI API等工具,用户可以快速评估模型的性能。

小鹏P7+智驾轿跑11月初震撼上市,预售价20.98万元起,你心动了吗?
【太平洋科技快讯】10月31日,小鹏汽车宣布,其全新车型P7+将于2024年11月7日19:30正式上市。这款车型被定位为“AI智驾掀背轿跑”。P7+目前已开启预售,预售价定为20.98万元起。P7+拥有豪华…

2024-10-31

红米K80 Pro获3C认证:120W有线+50W无线快充,充电新速度!
此外,小米此前推出的型号为24117RK2CC的新机也已通过3C认证,该机型支持最高90W的快充。RedmiK80系列中的K80手机预计将配备90W有线充电,而K80 Pro则有望采用更高效的120W有线…

2024-10-31

谷歌Pixel 11a或搭载特制版Tensor G6,功能受限以区分数字版?
谷歌专为Pixel 11a和Pixel Tablet 3平板设计了特别版TensorG6芯片,该芯片将屏蔽或移除部分TPU功能。此举旨在加大Pixel A系列与Pixel数字标准版之间的差距,以便更明确地进…

2024-10-31

成都武侯区黉门后街火灾已扑灭,24名伤员正在救治
10月31日晚,成都市武侯区应急管理局发布最新通报: 10月31日上午11时许,武侯区黉门后街2号一酒店一楼楼梯间起火,11时15分明火被扑灭,过火面积约10平方米,浓烟扩散到酒店2楼,有24人因吸入浓烟送医…

2024-10-31