关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:024618人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

应对“卷土重来”的百日咳,难吗?

网易健康 浏览 2499 06-03

南航机长跳楼身亡 妻子:出事后南航无任何人通知家属

上观新闻 浏览 9711 07-05

斯巴鲁全新电动SUV将在7月17日全球首发

MOTO 浏览 5027 07-14

苏州一餐馆3元糖水碗"内增高" 糖水覆盖碗底薄薄一层

扬子晚报 浏览 1820 07-17

尚界H5增程版续航曝光 纯电续航181km/综合续航1350km

太平洋汽车 浏览 6131 07-22

博主:徐正源团队年薪4000万,引援有裂痕,往韩媒发负面消息

懂球帝 浏览 2326 07-17

明星AI独角兽Windsurf被瓜分的背后:资本拉锯、背刺与共识破灭

硅谷101 浏览 841 07-25

伊朗正式退出与美国的核谈判

央视新闻 浏览 7868 06-14

特斯拉扩大奥斯汀Robotaxi服务区域,地图形状似男性生殖器引质疑

IT之家 浏览 2355 07-15

“又土又穷”的河南人,正在颠覆中国商业史

智谷趋势 浏览 1954 07-12

爱康国宾被质疑“假体检”:女律师体检10年未提示癌症风险,结果竟查出癌症晚期

深蓝财经 浏览 1365 07-18

"和尚爸爸"道禄被指有多栋别墅 曾"染指"数名救助宝妈

红星新闻 浏览 390 07-10

进入CBA最想和谁对位?杨曦皓点名周琦,李苑鑫想和赵柏清交手

懂球帝 浏览 8498 07-25

冬天嘴唇干燥起皮,千万别舔别撕!

北京青年报 浏览 9506 12-20

多轮破亿元资金注入人形机器人赛道,资本更青睐“汽车人”造“人”?

华夏时报 浏览 9848 07-24

男子手部外伤被要求检查前列腺 多方回应

齐鲁壹点 浏览 2209 07-02

孩子长不高,打生长激素到底行不行?

网易健康 浏览 750 12-30

江宏杰原谅福原爱!双方为孩子和解,已放下仇恨相处融洽

素素娱乐 浏览 8776 07-12

中国世界领先装备“暴款”,打破“两党共识”

浏览 2580 07-14

石破茂演讲被发现"在手背上打小抄":密密麻麻写满文字

环球网资讯 浏览 3974 07-15

结束11年红魔生涯?太阳报独家:卢克-肖准备听取沙特球队报价

直播吧 浏览 385 07-25
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11