关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025273人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

知情人:受胡雷资助女孩家有6个孩子 跟着爷爷奶奶生活

极目新闻 浏览 593 08-22

微星推出新服务器,最高8块英伟达RTX PRO 6000 Blackwell GPU

IT之家 浏览 561 09-01

香港老人登上山东舰哽咽:我们都要好好爱我们的国家

环球网资讯 浏览 2888 07-05

法院发布悬赏公告最高赏金2600万元 当事人回应

封面新闻 浏览 6963 07-11

我这个中国人略有不适:上半年,外资对日本房地产投资额创新高!

火星宏观 浏览 479 09-01

台积电 2nm 工艺晶圆曝光:每片 3 万美元、初始良率约 60%

IT之家 浏览 485 08-19

杨洋又被配角掀桌?新剧状态输给两个镜头的曹骏

萌神木木 浏览 9533 07-23

记者:拓王之战转播源取自现场大屏,所以直播视角混乱+回放过多

懂球帝 浏览 379 10-11

美政府逼欧洲加军费 美军火商忙着抢市场

上观新闻 浏览 5389 06-26

54岁王琳面相变了,控制欲太强?

疯说时尚 浏览 10508 08-08

最强动物塑,全在ZOOTOPIA里了

时尚COSMO 浏览 194 12-03

用AI演戏,Vidu 的三重进化,AI视频从碎片化叙事迈向复杂叙事新阶段

雷峰网 浏览 389 10-22

胡塞开始清理红海 外国船挂五星红旗“蹭保护”

掌青说历史 浏览 7267 07-10

德约纪念逝去恩师忍不住落泪,现场打脸意大利网协主席

网球之家 浏览 320 11-06

76岁欢喜哥去世!众星悼念

查尔菲的笔记 浏览 331 10-29

极氪8X实车现身,大过宝马X5+5/6座可选,配1401马力+双腔空悬?

燕赵女司机 浏览 261 01-20

高市早苗曾主张修改日本宪法 企图让日本重获宣战权

上游新闻 浏览 347 10-22

603825,突发利空,将被ST!下周31股面临解禁

数据宝 浏览 490 08-23

直击常熟银行临时股东大会!拟再吸收合并3家村镇行,正式取消监事会

时代周报 浏览 561 08-12

先下手为强!在尼克斯产生兴趣之前公牛就已提出多诺万的续约合同

直播吧 浏览 1105 07-28

中国女篮战胜美国蝉联大运会冠军 刘禹彤喜极而泣

体育哲人 浏览 6942 07-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11