关闭广告

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

IT之家2025-07-24 12:00:022220人阅读

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。


苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。


事实核查工具使用网络搜索来验证响应中的原子事实;代码执行利用 OpenAI 的代码解释器运行并验证代码的正确性;数学核查工具是代码执行工具的一个专门版本,用于验证数学和算术运算。


如果发现没有工具对判断有帮助,系统将使用基线 LLM 注释器,以避免在简单任务上不必要的处理和潜在的绩效回归。

IT之家附上参考地址

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

阿斯报:若拉什福德及时康复,弗里克将带27名球员参加亚洲行

直播吧 浏览 1865 07-22

上汽一季报出炉 在低增长周期里守住基本盘

网易汽车 浏览 5 05-01

券商这一业务即将彻底退出

券商中国 浏览 2944 07-19

听从雷军建议,全新小鹏 P7 纯电轿车将进行 24 小时耐力测试

IT之家 浏览 4807 08-11

泰F16出动无效柬埔寨取胜 柬成功夺取两处泰柬争议地

掌青说历史 浏览 271 07-25

字节跳动:因组织调整离职的员工 过渡补贴最高7.2万元

澎湃新闻 浏览 15 10-11

队记:库明加经纪人要求3年8200万美元合同,勇士队予以拒绝

懂球帝 浏览 4032 08-12

REDMI K90 Pro Max 可与 iPhone / 小米 17 Pro Max 通用钢化膜

IT之家 浏览 16 10-20

北大腾讯团队只改一行代码,让AI图像生成效果提升20%!

科技行者 浏览 8 01-28

新车市场企稳传导效应显现 二手车市场“回暖”6月同比增长9.12%

中国经营报 浏览 4552 08-10

被24岁的张子枫吓到了!她怎么变成这样了

Yuki女人故事 浏览 7333 08-02

87岁范曾陷"失联"风波 其作品成交金额已超过40亿元

封面新闻 浏览 5078 08-18

欧尔班:欧盟正讨论迫使俄赔偿乌方 从而偿还欧盟贷款

大风新闻 浏览 15 01-19

AI教育机器人首秀广交会!西班牙客商:科技水平太惊艳了

南方都市报 浏览 15 10-17

限时售价6.58万起 全新MG4成都车展正式上市

网易汽车 浏览 15 08-30

匿名霸榜、阿里“不认”,HappyHorse是谁?

AIX财经 浏览 4 04-10

再度登船⚓保罗带着3号快船球衣亮相《吉米今夜秀》

直播吧 浏览 6379 07-24

全球港口博弈拉警报?李嘉诚亮终极底牌了

大猫财经Pro 浏览 11 02-05

冒冷汗,它吓到我了...

越女事务所 浏览 9452 08-11

限时售8.18万起 吉利银河A7正式上市

网易汽车 浏览 1049 08-10

试驾比亚迪夏,奔着家用MPV刚需而来

懂车之道 浏览 5814 06-23
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2