关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:024992人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

泰柬局势"火药味"飙升:泰国出动F-16战机 洪森表态

每日经济新闻 浏览 3418 07-25

吉利银河 M9 旗舰六座 SUV 预售 24 小时订单破 4 万

IT之家 浏览 257 08-25

林允儿新剧遭官媒批评!本人社媒喊话我喜欢,来中国捞金还挑衅

萌神木木 浏览 175 09-22

恭喜!卢卓灵世运会女子太极拳-太极剑夺冠,中国代表团收获首金

直播吧 浏览 6244 08-10

郑丽文就职演说让马英九流泪 台媒:他看见蓝营的希望

海峡导报社 浏览 69 11-03

预售23.59万起 奥迪E5 Sportback将上市

网易汽车 浏览 169 09-16

曝黄晓明叶珂秘密同居!每月28万金屋藏娇,杨颖不让儿子过去住

萌神木木 浏览 9284 07-31

连续2天逆跌,票房会破30亿?大鹏都压不住,暑期档又诞生大黑马

靠谱电影君 浏览 2161 07-24

米兰未来3-0斯坎佐罗夏特,伊布儿子为米兰未来首开记录

懂球帝 浏览 146 09-29

透过数据看上半年全国网上零售“成绩单” 产业电商激发转型新潜力

海外网 浏览 4260 07-22

特朗普:将对大部分国家征收15%至50%的简单关税

21世纪经济报道 浏览 10268 07-24

比音勒芬的中年困局:当"老登经济"遭遇Z世代消费革命

经理人杂志 浏览 5801 07-25

特朗普结束访英返美 途中因直升机故障改乘备用机

国际在线 浏览 188 09-19

外媒记者:俄乌代表、巴以代表都在中国上桌聊

北京日报客户端-长安街知事 浏览 36770 09-19

中美贸易战倒计时:中国如何应对新一轮挑战

浏览 9213 07-14

凌晨!全线大涨!美联储宣布:降息!鲍威尔重磅发声!

券商中国 浏览 10 12-11

陈雨菲赛后一度泪崩:从昨天结束到刚上场,我已经吃了八颗止疼药

直播吧 浏览 225 09-01

今年最流行的4双鞋,配西装时髦有态度!

LinkFashion 浏览 145 09-26

90后女子花10年时间 成中国首位远洋公务船女船长

上观新闻 浏览 3481 06-10

太平洋产险分公司电销负责人倒卖全省车主隐私,天安、国寿集体“入局”引关注

经理人杂志 浏览 261 08-22

双方互袭仍在继续 俄乌准备第二轮直接谈判

环球网资讯 浏览 6410 05-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11