关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:024991人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

上海和平饭店罐装可乐一杯卖50元 市监部门回应

极目新闻 浏览 4789 07-24

冬天从60分穿到80分,只需要这个实用单品

黎贝卡的异想世界 浏览 7 12-12

女子被赌徒前夫当儿子面捅20多刀杀害 曾卖房替其还债

江南都市报 浏览 338 08-14

康恩贝:总裁退休前推行激励计划 销售费用八年超200亿元服务商现同名人员

金证研 浏览 1592 07-16

美将所谓"不公正"拘押美国人国家列入黑名单 中方回应

外交部网站 浏览 220 09-09

股价连跌6天,但泡泡玛特却在全球狂飙!

正解局 浏览 78 10-26

中国“十五五”:未来五年,世界剧变!

宋鸿兵 浏览 72 10-29

84岁老太被大女儿带出养老院盗取40万存款 老人起诉了

大风新闻 浏览 254 08-16

特朗普称美国正以“前所未有的速度储备武器”

环球网资讯 浏览 9420 06-04

坐飞机也可以上网 免费畅享"空中Wi-Fi"来了

环球网资讯 浏览 10622 08-21

上海女子连续一周被邻居冒用地址点外卖 邻居却不认错

潇湘晨报 浏览 10266 07-10

销量创近8年新高!半年卖出135万辆,长安汽车还差一个“爆款”?

时代周报 浏览 245 08-23

SpaceX承诺向xAI投资20亿美元,助其对抗OpenAI

网易科技报道 浏览 2699 07-13

在WAIC发布工业智脑,中国联通加速AI赋能新型工业化

上观新闻 浏览 5315 07-28

净利润下滑!东风集团发布盈利预警

经理人杂志 浏览 299 08-11

特朗普推改革遭阻,或成中国复兴“垫脚石”

浏览 2554 07-14

韩国投资者大举买入中国股票,他们嗅到了什么?

郭施亮 浏览 1978 07-21

《以法之名》现实版:谁为*ST华微 14.9 亿资金占用困局负责?

野马财经 浏览 8336 08-07

"十四五"期间约有3.5亿人乘坐飞机出行

新华社 浏览 7140 07-22

足球报:城市联赛面临高昂行政成本,赛风赛纪和裁判也是困扰

懂球帝 浏览 123 10-13

小米小鹏零跑:新势力“增长三杰”的秘密

虎嗅APP 浏览 264 08-21
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11