关闭广告

Google与约翰霍普金斯大学联手打造AI"审计官"

科技行者2025-12-23 00:00:01247人阅读


这项研究由Google和约翰霍普金斯大学的研究团队共同完成,第一作者刘启豪在Google实习期间主导了这项工作,其他核心成员包括Google的毛承志、刘耀杰、朱文胜,以及约翰霍普金斯大学的Alan Yuille教授。这项突破性研究发表在2025年12月的计算机视觉顶级会议上,论文编号为arXiv:2512.16921v1,为多模态大语言模型的评估和改进开辟了全新路径。

在人工智能飞速发展的今天,各种AI模型层出不穷,每个都声称自己比前辈更强大。然而现实中,我们该如何真正了解这些AI的优缺点呢?传统的评估方法就像是让学生参加标准化考试,虽然能得到一个分数,但很难告诉我们学生具体哪里薄弱,更别说如何针对性地改进了。研究团队面临的正是这样一个挑战:如何为AI模型建立一个真正有效的"体检系统"。

现有的AI评估就像是医生只看体温和血压就给病人下诊断一样粗糙。虽然我们能知道某个AI在图像识别测试中得了85分,另一个得了90分,但这并不能告诉我们第一个AI具体在什么地方表现不佳,也不知道如何帮它改进。更令人困扰的是,有时候一个看起来更大更强的AI模型在某些特定情况下反而不如小模型表现好,这就像是让奥运冠军和业余选手比赛,

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

涨价频频 包装纸业绩可期

证券市场周刊 浏览 435 09-10

辛巴宣布退出直播行业,辛选集团由妻子初瑞雪接管

网易科技报道 浏览 491 08-19

"菲华人钢铁大王"遭撕票案主谋系26岁女子 详情披露

红星新闻 浏览 1683 08-05

谷歌Pixel 11系列手机Tensor G6芯片爆料:7核CPU

IT之家 浏览 137 04-29

用面包"雕刻"三星堆 00后女孩捧回国际烘焙大赛冠军

极目新闻 浏览 3203 08-05

影响数千万人的劳务派遣,终于被整顿了

智谷趋势 浏览 9208 08-14

"普特会"后 特朗普再谈对俄制裁:现在不必考虑

参考消息 浏览 588 08-17

华为多款手机通过星闪认证,测试集含L2HC编解码等测试

IT之家 浏览 278 01-27

“女二代”无奈离场一年多后,这位浙江前首富还能拿出硬招吗?

正经社 浏览 410 09-10

加沙地带超2700名五岁以下儿童严重营养不良

国际在线 浏览 10034 06-11

上海学生午餐虾仁炒蛋被指"臭得吃到想吐" 官方介入

极目新闻 浏览 364 09-18

这些企业凭什么走出了“经济上行的美”?

虎嗅APP 浏览 6574 08-07

中日紧张关系升温后 日官员劝渔民:不要去钓鱼岛海域

澎湃新闻 浏览 304 01-29

联合精密拟斥资近2亿元控股成都迈特航空,三年对赌5600万元净利润

红星资本局 浏览 311 12-23

樊振东首次回应"是否还代表国家队比赛"等争议

潇湘晨报 浏览 6946 07-27

纳指再创新高,苹果本周累涨逾13%

第一财经资讯 浏览 2331 08-09

万业企业成立热电科技公司 含半导体相关业务

证券时报 浏览 5072 07-31

切尔西4-1十人米兰,库比斯直红+乌龙,德拉普双响

懂球帝 浏览 5046 08-11

河南持续高温 有农户凌晨带水泵在机井口"排队"等浇地

红星新闻 浏览 8661 08-05

内容“新物种”,全球“闪电战”|2025中国短剧出海报告

霞光社 浏览 378 09-29

Robotaxi发生伤人事故 哈啰出行自动驾驶业务暂停运营

界面新闻 浏览 341 12-12
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11