关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:022206人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。


事实核查工具使用网络搜索来验证响应中的原子事实;代码执行利用 OpenAI 的代码解释器运行并验证代码的正确性;数学核查工具是代码执行工具的一个专门版本,用于验证数学和算术运算。


如果发现没有工具对判断有帮助,系统将使用基线 LLM 注释器,以避免在简单任务上不必要的处理和潜在的绩效回归。

IT之家附上参考地址

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

标配冷暖冰箱 海豹06DM-i旅行版7月4日上市

网易汽车 浏览 5898 07-04

蒋欣的“眼光”真没错!看了《朝雪录》才发现,李兰迪面相早变了

温柔娱公子 浏览 5774 07-19

迪丽热巴工作室再出“奇招”,粉丝是真没招了

年两 浏览 3432 07-31

绿城又换了一位执行总裁

地产深度报道 浏览 5326 07-23

《经济学人》感慨:苹果折进去10年,中企打了胜仗

观察者网 浏览 9444 07-23

谷歌或含泪出售Chrome!AI让浏览器灭亡?更像是重生

雷科技 浏览 2239 08-19

标配激光雷达 新款领克07 EM-P/领克08 EM-P来了

网易汽车 浏览 4243 07-21

奇才甩掉霍姆斯斯玛特韦斯利后薪资降了2123万 已俯冲到了联盟倒4

直播吧 浏览 3644 07-22

OpenAI 会杀死 Manus 们吗?

钛媒体APP 浏览 411 07-20

Anthropic 对 Claude Pro / Max 开出限量令,影响不足 5% 订阅者

IT之家 浏览 4210 07-29

观众说段奕宏用力过猛 为何央媒却专门点名表扬?

阿校谈史 浏览 3073 07-29

又一车企购置税兜底,多方建议延迟!

电动知家 浏览 1 10-01

全国第二个提前还债的省份,出现在西部

时代周报 浏览 4 09-22

塞门约:目前对种族歧视采取的措施远远不够,可以考虑判刑

懂球帝 浏览 2 08-23

“利润率要么是0,要么为负”!最火的AI应用竟只是“为大模型打工”?

华尔街见闻官方 浏览 2995 08-12

22岁患绝症女孩宴请全村看电影:拒捐款 拜托关照父母

潇湘晨报 浏览 2 09-19

截至7月底我国充电基础设施数量达1669.6万个,是“十三五”末的10倍

财闻 浏览 1 08-26

泽连斯基家乡遭俄乌冲突以来"最大规模袭击"

环球网资讯 浏览 8192 07-18

Anthropic 寻求 100 亿美元新融资;《恋与深空》获科隆展最佳移动游戏奖;脑瘫司机靠特斯拉 FSD 开车养家

极客公园 浏览 1 08-23

彭博社:印度人耿耿于怀之际 发现特朗普不敢欺负中国

澎湃新闻 浏览 7975 08-09

辽篮解说:辽篮从没有交易张镇麟的打算,谣言差不多得了

懂球帝 浏览 1 08-22
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2