关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:024648人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

德天空:不莱梅与利兹联后卫施密特达原则协议 俱乐部间在商讨细节

直播吧 浏览 2419 07-29

外卖大战中的骑手:收入多了就是好事

界面新闻 浏览 1853 07-18

少林书画院:联系不上释永信弟弟刘应彪

第一财经资讯 浏览 321 07-31

奥特曼气到快失眠?OpenAI前大佬力挺:小扎砸钱挖墙脚,1亿美元很合理

新智元 浏览 2817 07-14

村民打捞游客手机索要1500元未果又扔回水中 被拘7日

上观新闻 浏览 295 07-13

中国经济上半年同比增长5.3% 储备政策将择机而出

21世纪经济报道 浏览 2610 07-16

港股概念追踪 | 生猪产业释放积极“信号” 供给收缩下猪价有望逐月上移(附概念股)

智通财经 浏览 7489 07-24

太火爆!两日成交额超1800亿元,科创债ETF成机构心头好

国际金融报 浏览 1830 07-22

泰柬将在马来西亚谈判 前线交火仍在持续

界面新闻 浏览 6666 07-29

曼联4-1伯恩茅斯,多古传射,霍伊伦建功,19岁小将威廉斯破门

懂球帝 浏览 4514 07-31

美联储降息:中美经济博弈的新篇章

浏览 7968 07-14

MIT满分学霸CEO反手毁约,OpenAI天塌了!谷歌半路截胡30亿天价收购

新智元 浏览 8017 07-12

D-巴斯克斯:我和米兰解约3天后就收到罗马邀请 感谢马萨拉的信任

直播吧 浏览 8193 07-31

演唱会"出轨门"女高管已辞职 其丈夫事发时据称在海外

红星新闻 浏览 7978 07-26

26岁张媛媛当选副镇长 4年前参加工作

环球网资讯 浏览 6432 07-28

冲突中多次遇GPS信号中断 伊朗探索迁至北斗导航系统

环球网资讯 浏览 1677 07-31

布林肯抨击美政府空袭伊朗核设施:错误、不明智且不必要

环球网资讯 浏览 6583 06-26

区块链记账、AI自动做实验?复旦 “星河启智” 平台破解科研痛点

文汇报 浏览 5765 07-27

汽车只是序章?马斯克勾勒特斯拉“终局”:机器人、AI、自动驾驶驱动30万亿美元帝国

华尔街见闻官方 浏览 7554 07-28

CBA选秀前瞻:北大约基奇清华周琦谁成状元 开除一人仅64人参选

醉卧浮生 浏览 1633 07-25

汪峰森林北带儿女日本度假 岳母很喜欢章子怡儿子

科学发掘 浏览 8710 07-23
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11