关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025176人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

牛弹琴:美印突然和好 一个与俄方有关的细节很不寻常

现代快报 浏览 171 02-04

俄白“西方-2025”联合军演结束

环球网资讯 浏览 349 09-19

百度电商,赌性坚强

蓝鲸新闻 浏览 419 08-11

开了3年增程车后,有些话不吐不快!这4个坑,真的不能跳

小李车评李建红 浏览 1148 08-08

足球报:国安并非没考虑过土帅,针对今年问题已做长远规划

懂球帝 浏览 277 10-13

全球股市遭遇“黑天鹅”,A股会跌出“黄金坑”吗?

郭施亮 浏览 294 10-13

台媒:大陆在朱日和基地复制"总统府" 不可掉以轻心

经济观察报 浏览 204 01-13

杭州,居然是一个巨大的真人寻宝游戏!

时尚COSMO 浏览 290 09-21

白天展品爆发,夜晚灵感狂飙:WAIC 2025第二天到底有多炸?

硅星人 浏览 8333 07-28

钟楚曦、杨采钰一到夏天就爱穿的这双鞋,我先加入购物车了!

黎贝卡的异想世界 浏览 9672 06-19

乌前线投降激增泽连斯基释放信号前所未有 俄火速同意

掌青说历史 浏览 5189 07-21

亲爱的柳岩女士,时代终于跟上你了

韩小娱 浏览 10113 07-30

突发!泰禾董事长黄其森被留置

财通社 浏览 435 08-23

黑救护车上死亡女子母亲再发声:48万赔偿款终于到账

极目新闻 浏览 4689 07-12

潘宏再陷风波:宠物狗在其指定的托运公司死亡

封面新闻 浏览 575 08-12

50岁女人衣不在多而在搭,学会穿长裤、长裙,美的优雅高级

静儿时尚达人 浏览 2098 06-10

“大而美”法案,真的美吗?

21世纪经济报道 浏览 6271 07-12

收评:市场全天冲高回落 三大指数微跌

财联社 浏览 532 08-20

三只羊最美女主播解约!小杨哥最担心的发生了

首席品牌评论 浏览 160 02-04

天海电子IPO:业绩增速放缓、毛利率持续下滑,回炉再造前路坎坷

览富财经网 浏览 5475 07-16

中加贸易争端:中方反制加拿大关税举措

浏览 3075 07-14
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11