关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者2025-11-09 00:00:01209人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

《南京照相馆》的那口气,被《东极岛》给出了,朱一龙杀敌爽到爆

最爱酷影视 浏览 6343 08-07

众声成乐,互联网优质内容创作者集聚上海为了这件事

文汇报 浏览 330 09-20

雷军:不少人有偏见,固执地认为小米没啥技术、就是组装厂

观察者网 浏览 350 09-26

业主预付20万买简装房 正式签约时开发商突然涨价15万

大风新闻 浏览 7779 07-26

马伊琍不再隐瞒,自曝离婚真相,姚笛仅冰山一角

小椰的奶奶 浏览 449 08-26

10倍股的崩塌

诗与星空 浏览 413 08-11

美国防部指责两架委内瑞拉军机在美军舰附近飞行

环球网资讯 浏览 372 09-06

《蛟龙行动》卷土重来,回炉重造的电影,你是否愿意为它买单

最爱酷影视 浏览 444 08-19

日本前首相鸠山由纪夫出席中国阅兵被批评

北京日报 浏览 246 09-08

每秒可传 1250 万部高清电影,亚马逊启动跨大西洋海底光缆项目

IT之家 浏览 267 11-06

大哥承诺每月给1万养家费 小弟把事扛了入狱发现被耍

方圆 浏览 226 11-05

山东一养殖场现炭疽病例,炭疽有多可怕?会人传人吗?

网易健康 浏览 8474 08-03

隐瞒了28年后,杨钰莹终于坦白?

聚合大娱 浏览 9378 08-04

大众集团连续8年研发费全球第一,去年狂砸1580亿!

电动邦 浏览 362 06-10

日产还有杀手锏!第三代 e-POWER 混合动力系统来了!

郑谊 浏览 2749 07-05

成都街头现"豪车拦路卖茶叶":女子花888元买"边角料"

封面新闻 浏览 1513 07-16

水果贵族进10元档 街头低至1元/斤高端超市卖99元/盒

时代财经 浏览 571 08-25

北京自闭症男童苍山走失身亡 父亲1周7天扎在单位加班

红星新闻 浏览 198 12-15

刘建国曝猛料:王伟忠不是大S干爹

小徐讲八卦 浏览 5969 07-13

在AI智能体真正可用之前,我们还需要做好哪些准备?

DeepTech深科技 浏览 10309 08-07

钟楚曦到底僭越了什么

虎嗅APP 浏览 245 11-04
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11