参考指南

IT之家 7 月 24 日消息，科技媒体 NeoWin 今天（7 月 24 日）发布博文，报道称苹果公司携手剑桥大学，提出一种新的 AI 评估系统，通过引入外部验证工具增强 AI 评审员的能力，以提高评审质量。

在评估大语言模型（LLM）时，研究人员和开发者越来越多地借助 AI 力量，这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战，在长篇事实核查、高级编码和数学问题等复杂任务中，评估质量往往会下降。

苹果携手剑桥大学发表了一篇新研究论文，概述了一种新系统，通过为 AI 评审员配备外部验证工具，以提高其评审质量，从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性，面临挑战和偏见，而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的，它能够评估响应以确定是否需要外部工具，并使用正确的工具。每个评估都经过三个主要步骤：初始领域评估、工具使用和最终决策。

苹果携手剑桥大学设计最佳 AI 评审框架，突破复杂任务评审局限

老板为女儿办...

网友发帖招合...

鲁比奥确认对...

台湾一古宅所...

男子在狱中病...

内塔尼亚胡强...

苹果新款 AI 聊天机器人 Asa 曝光，帮助零售员工销售 iPhone

长城魏牌汽车，到底被谁“逼急”了？丨正经深度

饥饿营销？英伟达H20被曝供应有限，且不打算重启生产

知情人:受胡雷资助女孩家有6个孩子跟着爷爷奶奶生活

微星推出新服务器，最高8块英伟达RTX PRO 6000 Blackwell GPU

香港老人登上山东舰哽咽：我们都要好好爱我们的国家

法院发布悬赏公告最高赏金2600万元当事人回应

我这个中国人略有不适：上半年，外资对日本房地产投资额创新高！

台积电 2nm 工艺晶圆曝光：每片 3 万美元、初始良率约 60%

杨洋又被配角掀桌？新剧状态输给两个镜头的曹骏

记者：拓王之战转播源取自现场大屏，所以直播视角混乱+回放过多

美政府逼欧洲加军费美军火商忙着抢市场

54岁王琳面相变了，控制欲太强？

最强动物塑，全在ZOOTOPIA里了

用AI演戏，Vidu 的三重进化，AI视频从碎片化叙事迈向复杂叙事新阶段

胡塞开始清理红海外国船挂五星红旗“蹭保护”

德约纪念逝去恩师忍不住落泪，现场打脸意大利网协主席

76岁欢喜哥去世！众星悼念

极氪8X实车现身，大过宝马X5+5/6座可选，配1401马力+双腔空悬？

高市早苗曾主张修改日本宪法企图让日本重获宣战权

603825，突发利空，将被ST！下周31股面临解禁

直击常熟银行临时股东大会！拟再吸收合并3家村镇行，正式取消监事会

先下手为强！在尼克斯产生兴趣之前公牛就已提出多诺万的续约合同

中国女篮战胜美国蝉联大运会冠军刘禹彤喜极而泣