关闭广告

Qwen3小升级即SOTA,开源大模型王座快变中国内部赛了

量子位2025-07-23 00:00:022726人阅读

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

开源大模型正在进入中国时间。

Kimi K2风头正盛,然而不到一周,Qwen3就迎来最新升级,235B总参数量仅占Kimi K2 1T规模的四分之一。

基准测试性能上却超越了Kimi K2。



Qwen官方还宣布不再使用混合思维模式,而是分别训练Instruct和Thinking模型。

所以,此次发布的新模型仅支持非思考模式,现在网页版已经可以上线使用了,但通义APP还未见更新。



Qwen官方还透露:这次只是一个小更新!大招很快就来了!



但总归就是,再见Qwen3-235B-A22B,你好Qwen3-235B-A22B-2507了。

By the way,这个名字怎么取得越来越复杂了。

先来看看这次的“小更新”都有哪些~

增强了对256K长上下文的理解能力

新模型是一款因果语言模型,采用MoE架构,总参数量达235B,其中非嵌入参数为234B,推理时激活参数为22B

在官方介绍中显示,模型共包含94层,采用分组查询注意力(GQA)机制,配备64个查询头和4个键值头,并设置128个专家,每次推理时激活8个专家。

该模型原生支持262144的上下文长度。

这次改进主要有以下几个方面

  • 显著提升了通用能力,包括指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用。
  • 大幅增加了多语言长尾知识的覆盖范围。
  • 更好地符合用户在主观和开放式任务中的偏好,能够提供更有帮助的响应和更高质量的文本生成。
  • 增强了对256K长上下文的理解能力。



在官方发布的基准测试中可以看到,相较于上一版本,新模型在AIME25上准确率从24.7%上升到70.3%,表现出良好的数学推理能力。

而且对比Kimi K2、DeepSeek-V3,Qwen3新模型的能力也都略胜一筹。



为了提高使用体验,官方还推荐了最佳设置:



Qwen3新版本深夜发布就立刻收获了一众好评:Qwen在中等规模的语言模型中已经领先。



也有网友感慨Qwen在开启新的架构范式:



One More Thing

有趣的是,就在Qwen3新模型发布的前两天,NVIDIA也宣称发布了新的SOTA开源模型OpenReasoning-Nemotron

该模型提供四个规模:1.5B、7B、14B和32B,并且可以实现100%本地运行。



但实际上,这只是基于Qwen-2.5在Deepseek R1数据上微调的模型。



而现在Qwen3已经更新,大招已经被预告。

随着Llama转向闭源的消息传出,OpenAI迟迟不见Open,开源基础大模型的竞争,现在正在进入中国时间。

DeepSeek丢了王座,Kimi K2补上,Kimi K2坐稳没几天,Qwen的挑战就来了。

体验链接:https://chat.qwen.ai/


[1]https://x.com/Alibaba_Qwen/status/1947344511988076547
[2]https://x.com/giffmana/status/1947362393983529005

— 完 —

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

秦海璐直言不敢再和张嘉译合作,藏着什么真相

星创文化 浏览 13 10-13

看来看去还是这些夏季穿搭好看!靓丽又舒适,这样穿衣有气质

静儿时尚达人 浏览 238 05-20

女人会不会穿衣区别很大,夏季学会这些穿搭,清爽大方又显瘦

静儿时尚达人 浏览 11 08-21

邮报:若伦敦承办29年田径世锦赛,西汉姆联将三周无缘主场比赛

懂球帝 浏览 7253 07-23

解锁日本主妇的优雅密码,掌握3个穿搭技巧,让你从容老去

静儿时尚达人 浏览 9098 06-01

外卖平台承诺“反内卷”,仍有商家称:红包减免高,外卖赔本赚吆喝

红星新闻 浏览 8006 08-10

豪掷60亿!字节跳动进军细胞疗法,百万治疗费或“打骨折”?

数字财经智库 浏览 3363 07-23

皇马+赫伊森仍未正式道歉!若不会道歉,就去学学梅西巴萨切尔西

念洲 浏览 5 02-24

上市1月破发20%!“空调屠夫”奥克斯,对不起基石投资者

深蓝财经 浏览 12 10-17

曼联揪出头号软肋!1米98门将遭欺负 名宿批评:毫无霸气

叶青足球世界 浏览 2352 08-18

净利润暴跌7912%!天域生物亏麻了

包不同 浏览 6 11-25

OpenAI 呼吁美国政府将芯片法案的税收抵免扩大至 AI 数据中心

IT之家 浏览 10 11-08

五年十代攻关 浙大成功培育高锌水稻“全能选手”

环球网资讯 浏览 12 10-14

46岁罗志祥近况曝光!去国外开演唱会和粉丝击掌

萌神木木 浏览 8403 08-19

聚力攻坚先进封装!长电科技上半年营收超186亿元,锚定高附加值市场

时代周报 浏览 9 08-23

女友BELLA+封面 | Ginny&Jayna:连锁反应

伊周潮流 浏览 7 01-31

梁家辉外孙女满周岁 在豪宅庆祝 外孙女长像爸爸

涵豆说娱 浏览 11 08-26

富可敌国!孙宇晨彻底暴露,他危险了!

功夫财经 浏览 4219 08-20

乌克兰基辅遭空袭 乌官员称已致3人死亡

新京报 浏览 6314 05-25

为泰党提名泰国新总理人选

参考消息 浏览 10 08-30

高阶智驾/起售12.98万 小鹏MONA M03 Max上市

网易汽车 浏览 855 05-30
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2