阿里巴巴旗下的通义千问近日发布了全新的基础模型架构Qwen3-Next,并开源了基于该架构的Qwen3-Next-80B-A3B系列模型。相比上一代Qwen3的MoE模型结构,新架构在多个方面进行了核心优化,包括引入混合注意力机制、高稀疏度MoE结构、多项训练稳定性增强策略,以及支持高效推理的多token预测机制。
基于Qwen3-Next架构,阿里推出了Qwen3-Next-80B-A3B-Base模型,该模型拥有800亿参数,但在实际运行中仅激活约30亿参数,显著降低了计算资源消耗。该模型在性能上接近甚至优于Qwen3-32B dense模型,而训练成本却不到后者的十分之一,尤其在32k以上上下文长度下的推理吞吐量更是提升了十倍以上,展现出极高的训练与推理效率。