关闭广告

上海AI实验室推出ATLAS:让AI在科学推理中"败下阵来"的超级考场

科技行者2026-01-20 00:00:01183人阅读


这项由上海AI实验室领导的研究于2024年11月发表在arXiv预印本平台,论文编号为2511.14366。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队包括来自复旦大学、北京大学、上海交通大学等25所知名院校的专家学者,他们共同开发了一个名为ATLAS的科学推理评测平台。

当人工智能在各种考试中频频刷新高分记录时,一个有趣的现象出现了:那些曾经被视为"金标准"的测试题目,如今对顶级AI模型来说似乎变得过于简单。就像一个天赋异禀的学生轻松通过了小学考试,但我们却不知道他是否真正具备了解决复杂现实问题的能力。

正是在这样的背景下,上海AI实验室的研究团队决定为AI模型打造一个真正的"地狱级考场"。他们开发的ATLAS平台就像是一个专门设计来让AI"败下阵来"的超级测试场,专门检验AI在科学推理方面的真实能力。这个名字本身就很有意味——ATLAS意为"AGI导向的科学逻辑应用测试平台",寓意着要像古希腊神话中扛起天空的巨人一样,承担起衡量AI真实科学推理能力的重任。

想象一下,如果把现有的AI测试比作小学数学题,那么ATLAS就像是博士入学考试。它不满足于简单的

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

以总理公开谴责马克龙:承认巴勒斯坦国是奖励恐怖主义

红星新闻 浏览 4831 07-26

6.4万的特斯拉FSD将成为历史!

新车评网 浏览 191 01-20

尹同跃宣告奇瑞AI进入2.0时代,要快速追赶特斯拉FSD

贝壳财经 浏览 205 01-19

内娱又一个女明星,「疯」了

独立鱼 浏览 5458 08-06

江汽集团董事长项兴初拜访任正非 送出尊界S800车模

快科技 浏览 211 01-06

特朗普上台后一年 德国智库发布新报告:美国成"敌手"

南风窗 浏览 151 03-11

富佳股份:“一体两翼”战略显效,储能+机器人业务成增长新引擎

览富财经网 浏览 414 08-26

蔡依林《PLEASURE》巡回演唱会首站启幕

环球网资讯 浏览 181 01-07

夏天千万别只穿黑色,这三种颜色更适合夏天,清爽高级又减龄

静儿时尚达人 浏览 8944 08-07

北约真实意图曝光,泽连斯基面临艰难抉择

浏览 8777 07-14

关税预期与矿山停产“共振”,伦铜首次突破1.2万美元再创历史新高

华尔街见闻官方 浏览 171 12-24

记者:莱斯特城就哈努斯标价3500万镑,水晶宫引进谈判破裂

懂球帝 浏览 433 08-27

媒体:特朗普最新表态后 岛内绿营慌了担心其"卖台"

新民周刊 浏览 253 10-24

健康开学季 6招帮孩子预防呼吸道传染病

人民网 浏览 1397 09-13

消费者兴趣低于预期 苹果“大幅”削减 iPhone Air 的产量

威锋网 浏览 302 10-23

抖音电商,再动真格

虎嗅APP 浏览 314 09-22

比亚迪偷工减料?权威机构一锤定音 和特斯拉/理想一起当老师?

小李车评李建红 浏览 475 05-30

闫学晶风波后首现身!面无表情状态疲惫,林傲霏新疆同学名单曝光

萌神木木 浏览 195 01-16

海报荐读|AI产品情绪价值开始“分化”;无障碍出租车为何预约难

上观新闻 浏览 284 10-27

累瘫?三战全打满40分钟 从40+9到11+5失误 黑龙江女战神也顶不住

颜小白的篮球梦 浏览 282 10-13

中国出局首人!张之臻1-2遭巴埃斯逆转3连败 上海大师赛一轮游

醉卧浮生 浏览 318 10-02
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11