关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025172人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

法尔克:皇马考虑今夏以1.6亿至1.65亿欧元求购奥利塞

懂球帝 浏览 62 04-10

什么信号?又要征税了!

米筐投资 浏览 465 08-11

英国拟对俄实施三年来“最大规模”制裁

浏览 4248 07-14

山东一餐饮店因蛤蟆汤视频被拟罚45万元 老板最新发声

极目新闻 浏览 3214 07-15

千问加速进入AI硬件!再推1999元亲民AI眼镜,减价不减配

智东西 浏览 190 12-23

被称为AI终极计算机Jetson AGX Thor发布,助力机器人AI算力飞跃

DeepTech深科技 浏览 441 08-26

5球2助10分!哈兰德杀疯了:创4大纪录 一只脚踏进世界杯

叶青足球世界 浏览 386 09-10

曾志伟合影辱华艺人风波升级!致歉评论区控不住,多次涉争议事件

萌神木木 浏览 1638 07-22

汪小菲产品陷发霉风波!度假面色凝重

张发林 浏览 8306 07-31

记者:蓝军将为西蒙斯开出首份报价,莱比锡愿以7000万欧放人

懂球帝 浏览 5103 07-29

这么丑的五指鞋,会是OOTD新风向吗?

时尚COSMO 浏览 3991 07-19

里程碑,勇士主帅科尔取生涯执教第600胜&位列NBA第28位

懂球帝 浏览 105 03-17

1年顶薪!同曦向祝铭震开出队内唯一顶薪合同 上季助队首进季后赛

醉卧浮生 浏览 5076 07-24

释永信10年前就被举报和女法师通奸 女方是母亲外甥女

恪守原则和底线 浏览 4751 07-28

退休警察举报11年前交通事故:当年鉴定疑未勘验实车

红星新闻 浏览 245 11-04

看完10集《太平年》,我头皮发麻,终于有人把“牵羊礼”拍出来了

娱乐圈笔娱君 浏览 191 01-28

123-120!里夫斯44+11,詹姆斯连续上双纪录终结,湖人绝杀猛龙

全景体育V 浏览 200 12-05

四缸AMG失败史:干掉C63!

CLauto酷乐汽车 浏览 92 03-16

美商务部长声称印度"需要被修理" 印度再遭新一波打击

澎湃新闻 浏览 360 10-01

特朗普:美将向乌克兰提供"爱国者"导弹 欧盟承担费用

财联社 浏览 812 07-15

Robotaxi 能否筑起特斯拉护城河?

BusinessCar 浏览 7874 06-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11