关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025269人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

泰国代理总理普坦就泰柬冲突表态:尚未进入战争状态

每日经济新闻 浏览 1016 07-25

外媒:为与普京通话 特朗普一度中断与泽连斯基会晤

环球网资讯 浏览 600 08-19

“非洲手机之王”,被华为起诉!

网易财经 浏览 10528 08-07

咨询业的末路时刻,“麦肯锡们”何以为生?

华商韬略 浏览 406 09-11

张雨绮风波持续发酵,曝多个商务被取消

扒虾侃娱 浏览 280 01-28

莫兰特:中国球迷与众不同 他们带来了难以置信的能量

直播吧 浏览 540 08-12

AI改变金融系统,周小川、肖远企发声

中国基金报 浏览 408 10-25

始祖鸟在喜马拉雅山放烟花 成功"劝退"了真正的户外人

每日经济新闻 浏览 420 09-21

何小鹏“扒皮”验真身 国产人形机器人“摊牌了”

汽势传媒 浏览 334 11-11

范戴克:我们不想在主场取得平局,有势头后就应该全力以赴

懂球帝 浏览 360 10-21

中介雇人假装看房狠砍60万:"演员"1次可获200元报酬

看看新闻Knews 浏览 429 09-23

从这个季度开始,市场不再质疑AI Capex了

钛媒体APP 浏览 453 08-19

各有升级 东风奕派将发布三款新车

车质网 浏览 212 03-10

科创新就业 | 聚合工艺工程师——在分子世界里“编织”材料未来

中安在线 浏览 3425 07-24

CHERRY 樱桃推出三款四型 KW 系列机械键盘,面向现代办公场景

IT之家 浏览 3402 08-06

2026款上汽大众朗逸正式上市 售价12.09万起

车质网 浏览 289 01-22

普京:俄罗斯将在战场解放故土 欧洲"猪猡"将下台

参考消息 浏览 237 12-20

国航开通北京至阿拉木图直飞航线

国际在线 浏览 6479 07-31

男子招商银行储蓄卡被盗刷:事发前2天手机曾突然黑屏

红星新闻 浏览 1409 07-15

奇瑞汽车12月销量超23万辆同比减16%,2025全年超263万辆

IT之家 浏览 264 01-02

萧煌奇妻子正面照曝光:是短发气质美女,双方否认是奉子成婚

素素娱乐 浏览 321 01-09
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11