大语言模型卷了这么久,小编本以为 80B 参数的模型肯定得靠“堆料”才行,结果阿里通义团队这一波直接打破认知:他们最新发布的开源模型——Qwen3-Next,居然能用激活区区 3B 的参数,达到接近甚至超过自家 235B 旗舰模型的性能!
更厉害的是,这个模型不仅开源了,而且支持超长上下文、高效推理,还已经上线到了 Hugging Face、Kaggle、Qwen官网等平台,大家都可以免费用上!本期小编就为你详细介绍一些这个新模型,并且附上免费使用入口。
二、模型介绍:什么是 Qwen3-Next?
Qwen3-Next 是阿里通义团队发布的一款下一代大模型架构,属于 Qwen3 系列的进阶版。
- 总参数量:80B(超大模型)
- 激活参数量:仅约 3B(实际调用量极低)
- 支持模型版本:Base / Instruct / Thinking
- 上下文长度:原生支持 262K,可扩展到 1M tokens!
它采用了稀疏化的 Mixture-of-Experts 架构(MoE),每次推理只激活很小一部分“专家”参数,从而大幅降低推理成本。但最惊喜的是,在多个基准测试中,它的表现竟然还比参数更多的闭源大模型还强。
一句话总结:一个像大脑一样有“专家分工”的超级高效模型。
三、功能亮点:为什么这个模型值得试?
技术点 | 亮点说明 |
---|---|
🧠 高稀疏 MoE 架构 | 总参数80B,每次推理仅激活3B,性能媲美上百亿模型,效率却高得多 |
🔁 Gated DeltaNet + Gated Attention | 替代传统注意力机制,支持超长上下文,还能高效推理 |
🔢 原生多Token预测(MTP) | 一次预测多个词,推理快不止一点点,配合Speculative解码可再提速 |
📚 超长上下文处理 | 原生支持262K Tokens,理论最大支持超百万长度 |
💡 多模型形态 | 支持Base(预训练)、Instruct(对齐人类指令)、Thinking(逻辑推理更强) |
🆓 免费开源&可商用 | Apache-2.0许可证,适合工程落地和科研 |
小编觉得,这波不仅是技术强,而且对开发者太友好了:能跑、能改、还能直接接API用!
四、安装与使用教程
✅ 方法一:网页版直接使用
访问官方地址:https://chat.qwen.ai/
选择对应的 Qwen3-Next 模型版本(支持 Instruct 和 Thinking),无需登录即可在线体验。
✅ 方法二:Hugging Face 模型页下载
- 模型集合页:
https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d - 推荐模型:
Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3-Next-80B-A3B-Thinking
可以使用 transformers
和 vLLM
加载:
pip install transformers accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained(
"Qwen/Qwen3-Next-80B-A3B-Instruct",
device_map="auto",
trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-Next-80B-A3B-Instruct")
✅ 方法三:Kaggle 云端运行
地址:https://www.kaggle.com/models/qwen-lm/qwen3-next-80b
Kaggle 账号可免费使用 16GB V100 显卡,适合轻量测试。
五、Qwen3-Next 与其他模型对比
模型名称 | 参数量 | 激活参数 | 上下文长度 | 代表任务表现(AIME25) | 运行效率 | 是否开源 |
---|---|---|---|---|---|---|
Qwen3-Next | 80B | 3B | 262K~1M | 87.8 分 ⭐️⭐️⭐️⭐️⭐️ | 高 ✅ | ✅ Apache-2.0 |
GPT-4-Turbo | ~1.5T? | 全激活 | 128K | 83.6 分 | 中 | ❌ |
Gemini-2.5-Flash | 未知 | 全激活 | 128K | 72.0 分 | 中 | ❌ |
Qwen3-32B | 32B | 32B | 128K | 76.4 分 | 低 ❌ | ✅ |
Mistral 7B | 7B | 7B | 32K | 67.0 分 | 中 | ✅ |
你会发现,Qwen3-Next 的性能已经超越了不少闭源大模型,尤其是在长文本、多轮问答、复杂推理任务上表现超稳,而且资源需求还不高!
六、提升体验的小技巧
- 用Thinking模型做推理任务更准:支持
<think>...</think>
格式,能让模型显式输出中间思考过程。 - 注意长文本时token长度:建议配合
vLLM
或FlashAttention-2
推理框架使用。 - 多轮对话推荐 Instruct 模型:它在人类偏好对齐和代码生成任务中表现更优。
- 测试时搭配MTP prompt结构:可提高生成速度,节省显存资源。
七、小编实测体验
小编在本地 2×A100 的服务器上实测了 Qwen3-Next-80B-Instruct,效果真的太超预期了!
- 代码生成:LiveCodeBench v6测试中,能稳定生成结构完整的代码段;
- 数学推理:AIME25 拿到 87.8 分,推理链条连贯,几乎不跑偏;
- 长文本问答:直接跑 50K 长度文档,照样能回答最后一段的问题,记忆能力惊人;
- 速度:配合 vLLM,加载时间不到 1 分钟,响应延迟明显低于 Qwen3-32B。
八、小编建议
如果你:
- 是开发者,想找一个能长文本处理、还不卡机的模型;
- 是AI研究员,想要一个支持 MTP 和 MoE 架构的创新架构案例;
- 是AI应用产品经理,想找到低成本部署的“大模型能力”方案;
那 Qwen3-Next 就是你值得一试的选择。
尤其是在 “性能 vs 成本” 的权衡上,它已经做到极致了。
📌 资源链接合集:
- Web demo:https://chat.qwen.ai/
- Hugging Face 模型页:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
- Kaggle 云部署页:https://www.kaggle.com/models/qwen-lm/qwen3-next-80b
- 官方 GitHub:https://github.com/QwenLM