热点资讯

7月22日消息，AI霸权之争已达到新的顶峰，Google 和现在都声称，其模型可以征服国际奥林匹克竞赛（IMO），这堪称人类最艰难的智力挑战之一。

美国时间周一，宣布其Gemini Deep Think AI在2025年IMO比赛中获得了官方认证的金牌。而在几天前，其竞争对手OpenAI也宣布，其模型在同样的比赛中获得了相同的顶级分数，但OpenAI的成绩尚未经过正式认证。

这一突破标志着AI推理能力的一次巨大飞跃，证明了通用型AI模型能够在解决复杂数学问题时达到人类顶尖水平。与此同时，这一进展也进一步加剧了两大AI巨头之间的竞争。

AI挑战人类智力巅峰

国际数学奥林匹克（IMO）是全球最具声望的青少年数学竞赛，始于1959年，每年举办一次。每个参赛国派出六名顶尖中学生数学选手，他们需解答六个在代数、组合学、几何学和数论等领域极其复杂的问题。其中，约8%的参赛者将获得一枚声望卓著的金牌。

近年来，IMO逐渐成为了AI系统的一个重要挑战平台，用以测试AI在数学问题解决和推理能力上的最新进展。去年，Google DeepMind的AlphaProof和AlphaGeometry 2联合系统曾达到银牌水平，解决了四个问题并获得28分。这一突破依赖于专门的形式化语言，展示了AI在接近人类顶级数学推理能力方面的进展。

今年，Google DeepMind的Gemini模型提交的结果首次经过IMO协调员的官方评分和认证，评分标准与学生选手一致。在肯定今年学生选手所取得的显著成就之余，谷歌也分享了Gemini在此次比赛中的突破性表现。

从银牌到金牌：AI推理的飞跃

Gemini Deep Think的高级版本在2025年IMO中表现出色，完美解决了六个极难问题中的五个，获得了总分35分，达到了金牌水平。这些解决方案已经在线公开，任何人都可以在线查看并验证其正确性。

IMO主席格雷戈尔·多利纳尔（Gregor Dolinar）教授表示：“我们可以确认，Google DeepMind已经达到了人们非常期待的里程碑，在满分42分中获得了35分——这是一个金牌分数。他们的解决方案在许多方面都令人惊叹。IMO的评分员发现它们清晰、精确，且大多数都易于理解。”

与去年的成绩相比，谷歌今年的成就具有里程碑意义。2024年，谷歌的AlphaGeometry和AlphaProof系统虽然达到了银牌标准，但当时它们依赖于专家首先将问题从自然语言转化为专用的领域语言（如Lean），而证明过程则需要反向操作，整个过程也需要两到三天的计算时间。

今年，Gemini模型的一个关键创新是能够全程使用自然语言进行操作，直接从官方的题目描述中生成严谨的数学证明。这一切都在严格的4.5小时比赛时间限制内完成。

“批量制造”真正的AI数学家？

OpenAI与谷歌都将最近在IMO上取得的成就视为通用AI的重要胜利。OpenAI研究员诺姆·布朗（Noam Brown）在社交媒体上表示：“恭喜Google DeepMind团队在IMO上取得的成绩！我认为他们的成功再次突显了AI进步的速度。虽然他们的方法与我们有所不同，但这正显示了AI研究领域可以探索的多样化方向。这不仅是一个针对IMO的专门模型，而是一个融合了新型实验性通用技术的推理型大语言模型。”

布朗的观点得到了OpenAI同事们的认可。这表明，谷歌和OpenAI的基础模型不仅仅是针对数学问题的狭义专家，更具备广泛的能力，能够应对多种复杂任务。

OpenAI选择自行公布成绩，凸显了在“公司内部面临挑战的背景下，急于展现领导力”的巨大压力。OpenAI首席执行官山姆·奥特曼（Sam Altman）也提到了这一成就的重要性：“当我们刚开始OpenAI时，这（指在IMO夺金）一直是一个梦想，但那个时候我们并不觉得它能够实现。”此次成功有力地反击了关于OpenAI正失去竞争力的言论。

而谷歌的系统则依赖于其新推出的Gemini Deep Think架构，这是一种增强型推理模式，专门用于处理复杂问题。它融合了谷歌最新的研究技术，包括“并行思维”，这种设置使模型能够在给出最终答案之前，同时探索并结合多种可能的解决方案，而不是追求单一的、线性的思维链。

为了最大限度地发挥Deep Think的推理能力，谷歌还引入了最新的强化学习技术，使其能利用更多的多步骤推理、问题解决和定理证明的数据来进行学习。此外，谷歌为Gemini提供了一个经过精心筛选的高质量数学问题解决方案语料库，并在其指令中添加了如何高效解决IMO问题的通用提示和技巧。

谷歌计划将这一版本的Deep Think模型提供给一批受信任的测试人员，包括数学家，之后再向Google AI Ultra订阅者推出。

AI与数学的未来

尽管取得了突破，但AI推理技术目前仍处于实验阶段。OpenAI研究员亚历山大·韦（Alexander Wei）表示：“这一成就攻克了AI领域长期以来的一个重大挑战，我很高兴地分享OpenAI最新的实验性推理型大语言模型已经在全球最具声望的数学竞赛中达到了金牌水平。”

Google DeepMind的高级研究科学家Thang Luong对未来充满信心：“我们非常有信心，很快就能把模型交到我们所信任的测试人员手中，尤其是数学家，帮助他们解决更复杂的问题，之后再推出给更广泛的用户群体。”

Google DeepMind与数学界的合作正在持续进行，但AI为数学贡献的潜力仍处于起步阶段。通过让AI系统能够进行更加灵活和直观的推理，谷歌正在一步步接近构建能解决更复杂和高级数学问题的AI。

尽管今年的工作完全基于自然语言的Gemini，谷歌仍在持续推进其他AI系统，包括AlphaGeometry和AlphaProof。

谷歌相信，那些结合了自然语言流畅性与严格推理的智能体，包括在形式化语言中经过验证的推理，将成为数学家、科学家、工程师和研究人员不可或缺的工具，帮助推动人类知识的进步，并为通用（AGI）奠定基础。（小小）

人类顶级的智力高地失守！谷歌获官方认证奥数金牌

上涨核心逻辑...

特朗普在爱泼...

24小时高温...

巴菲特再度减...

皮耶罗儿子被...

泡泡玛特新品...

一年高速迭代、超2000万安装！鸿蒙版微信用实力回应质疑

今年夏天最火搭配：短袖+半裙，谁穿谁好看！

MIT发现黏蛋白可关掉沙门氏菌致病基因，研发合成黏蛋白治疗腹泻

挑战汉DM-i 吉利银河星耀8将上市能否得到认可？

为何李玟和周海媚的死没有轰动全网，大S却做到了

以不变抗卷贾鸣镝：找到自己的豪华内核

郑丽文＂不谈统一＂让人失望了蔡正元的话一针见血

2025年上半年中国汽车销量占全球份额达36% 同比增长3%

21.9万元的前铲+桶椅+轮毂！仰望U9碳纤维选装套件开售

皇马24岁球星沦为替补：6年68球13冠，标价1亿！曼城想买

当“光”成为AI的命门，曦智的“英伟达时刻”近了 | 对话沈亦晨

行长美女妻子出轨健身教练女方更多照片被扒:很端庄

新增激光雷达 2026款比亚迪夏官图发布

中央巡视后卸任七年的姜德果被查曾任唐山市委书记

是谁想的给迪丽热巴穿新中式？

推广|| 小预算也能戴出好质感，这个宝藏国货真的很值

周润发爆猛料：梁家辉以前是我“小弟”

世体：拉菲尼亚将坐在替补席额外座位上，为球队提供支持

9分钟丢球！阿森纳上一次在英超这么快丢球，进球者也是哈兰德

京东招募“菜品合伙人”，每道菜奖励100万保底分成！3年开1万家…

测试完成！这一领域我国再获技术突破

德媒：拜仁预计沃尔特马德+迪亚斯转会总费用将达1.5亿欧元

网友称有大学生因在宿舍泡牛奶被通报涉事高校回应

帕尔默度假骑摩托艇：我的故乡，圣基茨和尼维斯