关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025276人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

尘埃落定!全部划归国资!许家印的“御用包工头”被掏空家底

壹只灰鸽子 浏览 340 10-20

怀特谈被交易:当时我满脑子想的都是他们为什么不要我了

直播吧 浏览 10653 07-30

司机悬赏寻找丢失价值百万银砖:时隔20多天仍无进展

都市快报橙柿互动 浏览 463 10-01

安克创新、自然堂高管坐阵,寻找AI+营销的最强落地

虎嗅APP 浏览 6945 08-07

深度搜索如何学会自我监督:来自脑科学的启发

科技行者 浏览 276 02-04

MINI携手Deus Ex Machina 两款JCW概念车亮相慕尼黑车展

网易汽车 浏览 444 09-09

32岁,踢了6000分钟比赛的职业球员,生涯一共才踢了140多场

直播吧 浏览 9506 08-09

谁为外卖“0元购”埋单?

封面新闻 浏览 2365 07-22

大V发博文质疑小米YU7耐力测试 再上热搜

网易汽车 浏览 1685 06-27

武警部队组织近年来范围最广军事训练考评

新京报政事儿 浏览 1303 07-21

央视发文悼念老戏骨许绍雄,原来这才是真实的他

娱乐圈笔娱君 浏览 335 10-29

中欧空中桥梁持续上新 上海—米兰直飞航线开通

环球网资讯 浏览 5471 06-22

大S家与汪小菲家换撕扯方式!双方律师已正面硬刚

东方不败然多多 浏览 5257 07-23

杭州警方通报"女生在商场遭挟持被捅数刀":嫌犯已自杀

环球网资讯 浏览 5337 06-15

媒体:美国对台军售 本质是在加重中华人民共和国负担

新民周刊 浏览 335 11-05

1家4口自驾遇山洪妈妈与大儿子被卷走 家属发声

极目新闻 浏览 3732 07-21

苏州大学突破:AI评判官能评估人工智能的记忆管理能力吗?

科技行者 浏览 283 01-28

透视四川政府工作报告:向“第四极”加速奔跑

尺度商业 浏览 277 02-04

300万中产宝妈,买出一个IPO

豹变 浏览 438 09-29

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT4o

量子位 浏览 344 10-14

特朗普称"无需担心"美印关系 莫迪回应了

看看新闻Knews 浏览 543 09-07
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11