关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:025268人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中方放行 结果菲律宾在仁爱礁刚补给成功就立刻"翻脸"

科技有趣事 浏览 902 09-11

她们上桌了,但还不够

八卦三缺一 浏览 1158 07-15

郎酒朋友圈打开方式,不只是“干杯”

华商韬略 浏览 487 09-21

五一探店乐道L90和L80:L80热度明显更高

驾仕派 浏览 114 05-02

官方:药厂U19主帅伦格出任尤尔曼德助教,今夏加盟的迈耶尔留任

直播吧 浏览 412 09-10

官宣:帕拉迪诺出任亚特兰大新帅

体坛周报 浏览 279 11-12

高通踩线,中国出手:车载芯片并购进入高压区

钛媒体APP 浏览 323 10-13

卢浮宫抢劫案两嫌疑人均30多岁 一人试图登机离境被抓

极目新闻 浏览 351 10-27

NBA版落叶归根!利拉德保罗重回巅峰故地 卡佩拉梦回航天城

直播吧 浏览 1794 07-22

中乌互免签证协定今日生效 首架免签入境航班已抵达

环球网资讯 浏览 6684 06-03

昔日"水果贵族"价格大跳水 从300元一斤跌至9.9元3斤

极目新闻 浏览 548 08-25

达美航空一波音客机起飞后引擎突然起火 紧急返航

环球网资讯 浏览 6396 07-21

连蜜雪冰城柠檬水都断货了?柠檬自由真的要没了吗?

江瀚视野 浏览 437 09-20

罗马仕召回超49万台移动电源 极端场景下或有燃烧风险

中新经纬 浏览 6191 06-17

鑫慷嘉“崩盘”启示录

界面新闻 浏览 4431 07-17

理想汽车:i8已开启静态体验,29日发布会后可动态试驾

环球网资讯 浏览 2767 07-26

何雷中将:中国对菲律宾的忍耐是有限度的

北京日报客户端 浏览 371 09-19

连续两场地区联赛弃赛后,葡老牌球队博阿维斯塔面临解散风险

懂球帝 浏览 394 10-17

霍里谈NBA球员在中国人气:科1马2麦3登4 后两者与火箭有关

直播吧 浏览 7948 08-10

哈马斯在加沙处决12人 罪名包括与以军方合作等

界面新闻 浏览 2597 07-05

售7.29万 第4代帝豪全球400万纪念款新车型上市

网易汽车 浏览 287 01-05
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11