DeepSeek发布参数达6710亿新模型支持高效训练

2025-04-30

今日，DeepSeek在AI开源社区Hugging Face上推出了一款全新模型DeepSeek-Prover-V2-671B。这款模型采用了更高效的safetensors文件格式，支持多种计算精度，从而让模型训练与部署更加高效且节省资源。作为去年Prover-V1.5数学模型的升级版本，其参数规模达到了6710亿，为复杂任务提供了强大的算力支持。这一改进使得模型在处理数学证明等领域表现更为突出。

在架构设计方面，DeepSeek-Prover-V2-671B基于DeepSeek-V3架构构建，采用MoE（混合专家）模式，包含61层Transformer层和7168维隐藏层。同时，该模型支持超长上下文，最大位置嵌入可达16.38万，这使其能够应对更加复杂的数学推理场景。此外，FP8量化的引入不仅有效减小了模型体积，还进一步提升了推理效率，为实际应用提供了更多可能性。