关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025277人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中国豪宅教父,涉嫌违法被留置

说财猫 浏览 468 08-23

ELLE盛典红毯状况百出,有人摔倒、有人背手像逛大街,秒变菜市场

萌神木木 浏览 316 10-29

卡塔尔、科威特和巴林宣布重新开放领空

上观新闻 浏览 8150 06-24

印乐法师接替释永信任少林寺住持:硕士学历 口碑超好

180视角 浏览 2837 07-30

赵继伟社媒取消辽篮认证,媒体人:今夏肯定还会有球队询价他

懂球帝 浏览 108 05-06

春秋航空会为了卖毛毯把空调温度调低吗?

快刀财经 浏览 402 09-02

丁俊晖:来英锦赛心情和状态好;与特鲁姆普比赛是最难的

懂球帝 浏览 259 12-05

限时补贴价28.99万起 2026款传祺向往M8上市

网易汽车 浏览 265 01-06

鲁内跟腱断裂后,弗里茨等球员控诉ATP不顾球员死活!

网球之家 浏览 354 10-20

外卖大战降温,专家吁多管齐下破内卷

澎湃新闻 浏览 8253 08-10

3岁女童头上插刀原因披露 妈妈疑没拔出来刀才送医

极目新闻 浏览 648 08-18

账面1000多亿,却隐藏20多年,整个互联网都找不到它长什么样

壹只灰鸽子 浏览 321 01-18

张碧晨方回应"汪苏泷收回《年轮》授权":有永久演唱权

鲁中晨报 浏览 7933 07-26

贯穿式天际线屏 蔚来全新ES8内饰设计公布

车质网 浏览 542 08-16

罗志恒:三季度经济增速为何放缓?四季度经济前景如何?

首席经济学家论坛 浏览 346 10-22

小米SU7Ultra纽北限量版发布 定价81.49万元

网易汽车 浏览 3182 06-27

确定了!方媛承认三胎性别,坐实两大传闻

疯说时尚 浏览 5323 07-14

你的卫衣该换了!这4款真的太显土啦!

Yuki女人故事 浏览 302 10-31

回归哈弗H序列 实拍哈弗H6L

太平洋汽车 浏览 341 10-25

12岁女孩被虐待致死 生父听到继母被判死刑哭泣求情

潇湘晨报 浏览 466 09-17

开拓者7人上双114-95轻取篮网,阿夫迪亚18+6+5,克林根14+11

懂球帝 浏览 245 03-17
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11