关闭广告

马斯克开始疯狂剧透Grok 5了

量子位2025-09-19 00:00:0211人阅读

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

马斯克的Grok 5偷偷藏不住了。



刚刚ARC-AGI榜单官宣出现新SOTA,用的还是Grok 4+程序合成技术微调

好小汁,啥时候开始Grok都弯道超车了?OpenAI、Anthropic、谷歌一众明星模型都被压一头。



一石激起千层浪,网友纷纷发问,那等Grok5出来,岂不是……



马斯克也随即出来回应:

  • 我现在认为Grok 5能达到AGI。



顺便附赠了一堆有关Grok 5的爆料。

马斯克疯狂剧透Grok 5

这事还得从Grok 4超越预期的表现说起,发布才两个月就登上多个榜单第一的宝座,而就在刚刚,ARC Prize发布了两个最新的ARC-AGI榜单SOTA方案:

  • 都是开源的。
  • 都使用的是Grok 4作为基础模型。
  • 都实现了带测试自适应的程序合成外循环。



先简单介绍一下ARC-AGI排行榜,其旨在评估AI解决复杂难题的能力,类似于人类的智力测试,从而反映LLM的推理能力。

测试任务包含v1和v2版本,v2需要LLM完成更多的多步骤推理,一般来说,即使是最优秀的LLM也只能在v2中获得16%的准确率。



GPT-5在二者上的得分依次是65.7%和9.9%,Claude Opus 4的得分是35.7%和8.6%,而Grok 4则是66.7%和16%。

Jeremy Berman的新方案则是在Grok 4基础上,用英语替代了传统的Python,最终得分来到79.6%和29.44%。

Eric Pang则在Jeremy的工作上,设计了一个受DreamCoder启发、LLM辅助的程序合成系统,能够通过从不断扩展的程序库中学习来解决越来越难的任务。



虽然得分没有进一步升高(77.1%和26%),但是成功让每个任务的平均费用得以下降(v1:8.42美元→2.56美元;v2:30.4美元→3.97美元)

当问及两位作者选择Grok 4的理由,他们均表示,这是他们测试下来效果最好的模型。

当中所体现出的AGI潜力,也让马斯克感到自豪,随即透露了一系列有关Grok 5的消息。

老马表示,这才只是Grok 4,而Grok 5将很有可能达成AGI



而这个可能性也许能达到10%或者更高,要知道他此前并不认为Grok版本会出现AGI。



与此同时,他表示Grok 5将会在几周之内开始训练



加上此前他曾表示Grok 5将在今年年底前推出,或许我们将在不久后见证新的“LLM怪物”诞生。

所以为什么老马能对Grok 5抱以如此强烈的信心呢?

训练数据及硬件资源的投入

归根结底,是马斯克在Grok训练中投入之深。

据悉,Grok 5将拥有较之前代更多的训练数据

Grok 4的训练量是Grok 2的100倍、Grok 3的10倍,而Grok 5则只会更多。



马斯克拥有一整套的最新真实数据收集体系,其中xAI可以为其提供最新的直接数据,特斯拉可以定期利用FSD和摄像头捕获图像从而生成数据,而擎天柱机器人也能从现实世界中生成大量数据。

可以说,马斯克在当下数据为王的时代,最不缺的就是数据。

此外,xAI在硬件资源上也投入颇多,目标在5年内完成相当于5000万台H100 GPU同等算力的部署。

其专门为Grok系列打造的超级计算集群Colossus,已经部署了约23万张GPU。其中包括3万张NVIDIA GB200(基于Nvidia的Blackwell架构),将会持续为Grok提供强大的算力支持。



不过Grok 5究竟能否真正实现AGI,网友们对此也提出了质疑:毕竟要成为AGI靠的可不仅仅是数据和马斯克的声明,一切还得看成品



所以究竟谁才是能吃到第一只AGI螃蟹的AI公司,且让我们拭目以待。

参考链接:
[1]https://x.com/elonmusk/status/1968196086193066365
[2]https://jeremyberman.substack.com/p/how-i-got-the-highest-score-on-arc-agi-again
[3]https://ctpang.substack.com/p/e760eba7-c8b3-4fda-b631-61b89dd0d0fd
[4]https://www.tomshardware.com/tech-industry/artificial-intelligence/elon-musk-says-xai-is-targeting-50-million-h100-equivalent-ai-gpus-in-five-years-230k-gpus-including-30k-gb200s-already-reportedly-operational-for-training-grok

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

冲击月销2万?乐道找回闯关“节奏”

网易汽车 浏览 12 10-18

国际足联转会禁令系统显示,辽宁铁人新增一条转会注册禁令

直播吧 浏览 5016 07-24

榕江一餐馆灾后开业县领导成首批客人 老板:书记买单

上游新闻 浏览 2706 07-18

足球报社长:我们曾想组织广州球迷探讨该不该抵制广州豹

懂球帝 浏览 8068 08-11

福特纯电烈马:倒反天罡还是赛博朋克越野范儿?

网易汽车 浏览 19 08-30

没想到啊,45岁霍建华和44岁黄宗泽同框拍戏,港星居然更胜一筹

温柔娱公子 浏览 16 08-26

莫斯科大学突破:普通照片实现房间结构与物品识别

科技行者 浏览 16 10-22

马尔科-席尔瓦:大马丁百分之百禁区内犯规了,裁判没给我们点球

懂球帝 浏览 15 09-29

拼多多1000亿豪赌新拼姆,跨境电商变天?

Tech星球 浏览 1 05-28

伯利再挖布莱顿,邮报:前布莱顿技术总监威尔加盟斯特拉斯堡

懂球帝 浏览 15 11-01

尤文跟队记者:马竞对冈萨雷斯的报价约为总价2100万到2200万欧

直播吧 浏览 19 09-01

山东“入室抢婴案”一审宣判 4名被告人最高获死缓

环球网资讯 浏览 18 09-19

爆款刚诞生,德邦基金为何急下“谢客令”?

独角金融 浏览 12 01-18

两名英格兰球员在西班牙国家德比中交手,为123年来首次

懂球帝 浏览 15 10-27

合计亏超22亿元,牧原、温氏一季度双双转亏

中国基金报 浏览 6 04-22

2026时髦风向:穿出氛围感才高级!

LinkFashion 浏览 14 01-23

黄仁勋:我很想买一台小米汽车;美团高管回应刘强东只赚5%:大哥,从来没人能赚到5%;小鹏汽车扩招8000人!年内员工规模将达3万

雷峰网 浏览 8220 07-17

5万亿市场高歌猛进!这些隐忧,不可轻忽

券商中国 浏览 14 09-22

首款星闪音频耳机!华为FreeBuds Pro 5悦彰耳机开售:1499元 母带级无损音质

快科技 浏览 19 11-25

90后夫妻砸千万,开马来西亚最大的中国超市

虎嗅APP 浏览 2394 07-22

时间的“相对论”:为什么我们总觉得时间越跑越快?『心灵加油站』(271)

我们的太空 浏览 13 12-21
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2