关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:022218人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。


事实核查工具使用网络搜索来验证响应中的原子事实;代码执行利用 OpenAI 的代码解释器运行并验证代码的正确性;数学核查工具是代码执行工具的一个专门版本,用于验证数学和算术运算。


如果发现没有工具对判断有帮助,系统将使用基线 LLM 注释器,以避免在简单任务上不必要的处理和潜在的绩效回归。

IT之家附上参考地址

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普拿错剧本了?刚扬言要禁中国“地沟油”,就遭美媒啪啪打脸

北向财经 浏览 12 10-20

今年TVB已有7位老戏骨离世

萌神木木 浏览 9 10-29

数十年间宗庆后如何布局娃哈哈私有化?

清流 浏览 7848 07-29

浙大哲学学院公布新进教师 两位"95后"跻身博导引关注

澎湃新闻 浏览 1432 08-14

"最快女护士"哭求领导支持调休跑马引热议 账号已关评

极目新闻 浏览 15 09-02

每体:多支球队有意但卡萨多想留队竞争,巴萨将在几天内和他面谈

直播吧 浏览 15 08-22

那些含金量十足的大师赛,都有德约的身影!

网球之家 浏览 10 01-07

韩庚和妻子与友人聚餐,素颜皮肤黑眉毛好淡

八怪娱 浏览 5 03-11

为何姜文的作品,同样的配方结局却天差地别?

温酒听风 浏览 4455 08-11

冲沙/漂移/浮水一站式 比亚迪全地形赛车场开业

网易汽车 浏览 1367 08-15

活力中国调研行 | 每118秒,这里就有一辆新能源汽车下线

环球网资讯 浏览 14 08-26

530亿拼购巨头,力辩财务疑云

21财闻汇 浏览 934 07-31

市监部门回应“棉密码”卫生巾事件:符合旧国标,新国标实施后未生产,硫脲含量问题还需研判

红星资本局 浏览 5036 07-26

37岁生日变冷清,杨颖人设崩塌后的人情冷暖

花语舞者 浏览 4 03-03

阿莫林自信可率曼联英超夺冠!对比弗爵时代不公平,理解名宿质疑

罗米的曼联博客 浏览 10 12-15

股份行AIC扩容至三家

北京商报 浏览 9 11-25

MMA平台首款国产车型 奔驰纯电长轴距CLA亮相

网易汽车 浏览 4327 04-24

媒体:宗馥莉上任后 娃哈哈砍掉年销300万以下经销商

第一财经资讯 浏览 5074 08-10

她们说这才是秋天最实用的单品!6种穿法都帮大家总结好了

黎贝卡的异想世界 浏览 10 10-31

票房破35亿!姜文、大鹏新片厮杀,一个更大问题,正在电影圈发生

肥罗大电影 浏览 6782 07-19

定位纯电小型SUV 现代IONIQ 3假想图曝光

车质网 浏览 12 10-09
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2