关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025173人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

梅西:上次复出后一直感到不适,我为今天比赛做了充分的准备

直播吧 浏览 393 08-28

短短2天,张本智和双线输球,解释原因!雨果出局,助攻国乒争冠

侃球熊弟 浏览 460 08-23

全新TNGA合资中型SUV 从近20万降到14万多

隔壁说车老王 浏览 363 06-16

幸福!孙杨张豆豆自曝结婚3年育有一娃

818体育 浏览 74 04-10

官方:莱斯特城中场埃尔哈努斯租借至斯图加特,为期一个赛季

直播吧 浏览 380 09-02

上汽+华为/双动力可选 尚界H5预售16.98万起

网易汽车 浏览 411 08-26

做好这几招,惊蛰不“惊”春归不“敏”

网易健康 浏览 6111 05-31

直播吧X咪咕体育 英超第2轮MVP评选参与投票赢取评论赢好礼

直播吧 浏览 417 08-26

媒体人:国安完败内部问题可能有点吓人,外援起不到核心作用

懂球帝 浏览 3262 07-27

6名大学生坠入浮选槽遇难 设备内矿液正常温度为60℃

火山诗话 浏览 4499 07-24

实至名归梅西当选迈阿密国际vs纳什维尔全场最佳球员

直播吧 浏览 7752 07-13

波音跌逾2% 空客A320交付量即将超越波音

界面新闻 浏览 383 08-21

豆瓣8.7,这是公认中国最优秀的女性佳作!

幕味儿 浏览 4931 08-06

赵露思陷"假助农"风波 带货果汁价格疑是同类产品3倍

极目新闻 浏览 5142 08-14

美俄会谈倒计时乌军出手 俄边境爆炸致13伤

看看新闻Knews 浏览 434 08-15

泽连斯基称乌将在柏林和哥本哈根设立武器出口办事处

环球网资讯 浏览 227 11-04

光伏幕墙+汽车反向供电,全球首个“超阶零碳建筑”在青岛启用

IT之家 浏览 446 08-24

西部,风光电大崛起!

华商韬略 浏览 9376 08-07

小米卢伟冰:相信Q4手机毛利率会回升,将增加AI和自研芯片投入

IT之家 浏览 402 08-20

赵丽颖玩大了!《小城大事》预告信息量炸裂,不愧是争剧王的大剧

娱乐圈笔娱君 浏览 192 01-06

哈兰德:我对吕迪格一直很尊重;确实很想念贝林厄姆

懂球帝 浏览 181 12-11
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11