参考指南

IT之家 7 月 24 日消息，科技媒体 NeoWin 今天（7 月 24 日）发布博文，报道称苹果公司携手剑桥大学，提出一种新的 AI 评估系统，通过引入外部验证工具增强 AI 评审员的能力，以提高评审质量。

在评估大语言模型（LLM）时，研究人员和开发者越来越多地借助 AI 力量，这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战，在长篇事实核查、高级编码和数学问题等复杂任务中，评估质量往往会下降。

苹果携手剑桥大学发表了一篇新研究论文，概述了一种新系统，通过为 AI 评审员配备外部验证工具，以提高其评审质量，从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性，面临挑战和偏见，而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的，它能够评估响应以确定是否需要外部工具，并使用正确的工具。每个评估都经过三个主要步骤：初始领域评估、工具使用和最终决策。

苹果携手剑桥大学设计最佳 AI 评审框架，突破复杂任务评审局限

男子欲偷渡上...

6月5日起 ...

广州农商行收...

60万买的蔚...

穆里尼奥“警...

赵丽颖杨幂近...

亚马逊大裁员，揭示了AI时代残酷的现实

复出高效，波尔津吉斯砍30分5板4助2断3帽&得分勇士生涯新高

阿斯：登贝莱如今出色的表现，正在证明哈维当时是正确的

中国豪宅教父，涉嫌违法被留置

ELLE盛典红毯状况百出，有人摔倒、有人背手像逛大街，秒变菜市场

卡塔尔、科威特和巴林宣布重新开放领空

印乐法师接替释永信任少林寺住持:硕士学历口碑超好

赵继伟社媒取消辽篮认证，媒体人：今夏肯定还会有球队询价他

春秋航空会为了卖毛毯把空调温度调低吗？

丁俊晖：来英锦赛心情和状态好；与特鲁姆普比赛是最难的

限时补贴价28.99万起 2026款传祺向往M8上市

鲁内跟腱断裂后，弗里茨等球员控诉ATP不顾球员死活！

外卖大战降温，专家吁多管齐下破内卷

3岁女童头上插刀原因披露妈妈疑没拔出来刀才送医

账面1000多亿，却隐藏20多年，整个互联网都找不到它长什么样

张碧晨方回应＂汪苏泷收回《年轮》授权＂:有永久演唱权

贯穿式天际线屏蔚来全新ES8内饰设计公布

罗志恒：三季度经济增速为何放缓？四季度经济前景如何？

小米SU7Ultra纽北限量版发布定价81.49万元

确定了！方媛承认三胎性别，坐实两大传闻

你的卫衣该换了！这4款真的太显土啦！

回归哈弗H序列实拍哈弗H6L

12岁女孩被虐待致死生父听到继母被判死刑哭泣求情

开拓者7人上双114-95轻取篮网，阿夫迪亚18+6+5，克林根14+11