当科技巨头们斥资数十亿美元投入计算能力来训练前沿人工智能模型时,中国的DeepSeek却通过更高效而非更高强度的工作方式取得了类似的成果。DeepSeek V3.2人工智能模型在推理基准测试中与OpenAI的GPT-5模型不相上下,尽管其“总训练浮点运算量更少”——这一突破可能会重塑业界对构建先进人工智能的认知。

对于企业而言,此次发布表明,前沿人工智能能力并不一定需要前沿规模的计算预算。DeepSeek V3.2 的开源特性使企业能够在评估高级推理和智能体能力的同时,保持对部署架构的控制——随着成本效益在人工智能应用策略中日益重要,这一点尤为实用。
这家位于杭州的实验室周一发布了两个版本:基础版 DeepSeek V3.2 和 DeepSeek-V3.2-Speciale,后者在 2025 年国际数学奥林匹克竞赛和国际信息学奥林匹克竞赛中取得了金牌成绩——这些基准此前只有美国领先的人工智能公司未发布的内部模型才能达到。
考虑到出口限制导致 DeepSeek 难以获得先进的半导体芯片,这一成就尤其意义重大。
资源效率作为竞争优势
DeepSeek 的成就颠覆了业界普遍认为前沿人工智能性能需要大幅扩展计算资源的认知。该公司将这种高效性归功于架构创新,特别是 DeepSeek 稀疏注意力机制 (DSA),该机制在显著降低计算复杂度的同时,还能保持模型性能。
DeepSeek V3.2 基础人工智能模型在 AIME 2025 数学问题上取得了 93.1% 的准确率,Codeforces 评分为 2386,在推理基准测试中与 GPT-5 并驾齐驱。
Speciale 变体更加成功,在 2025 年美国数学邀请赛 (AIME) 中获得了 96.0% 的分数,在 2025 年 2 月哈佛-麻省理工学院数学锦标赛 (HMMT) 中获得了 99.2% 的分数,并在 2025 年国际数学奥林匹克竞赛和国际信息学奥林匹克竞赛中均获得了金牌。
考虑到DeepSeek在中国受到的一系列关税和出口限制,其成果尤为重要。技术报告显示,该公司在训练后分配的计算预算超过了训练前成本的10%——这是一笔可观的投资,使得模型能够通过强化学习优化而非蛮力扩展来实现更高级的功能。
技术创新驱动效率提升
DSA机制与传统的注意力架构有所不同。它并非以相同的计算强度处理所有词元,而是采用“闪电索引器”和细粒度的词元选择机制,仅识别和处理每个查询中最相关的信息。
该方法将核心注意力机制的复杂度从 O(L²) 降低到 O(Lk),其中 k 表示所选标记的数量,是序列总长度 L 的一部分。在从 DeepSeek-V3.1-Terminus 检查点开始的持续预训练过程中,该公司使用 480 个序列,每个序列包含 128K 个标记,对 9437 亿个标记进行了 DSA 训练。
该架构还引入了针对工具调用场景的上下文管理。与以往在每次用户消息后丢弃推理内容的推理模型不同,DeepSeek V3.2 AI 模型在仅附加工具相关消息时保留推理轨迹,通过消除冗余的重复推理,提高了多轮代理工作流程中的令牌效率。
企业应用和实际性能
对于正在评估人工智能部署的组织而言,DeepSeek 的方法除了基准测试分数之外,还提供了切实的优势。在评估编码工作流程能力的 Terminal Bench 2.0 测试中,DeepSeek V3.2 的准确率达到了 46.4%。
该模型在软件工程问题解决基准测试 SWE-Verified 中得分 73.1%,在 SWE Multilingual 中得分 70.2%,证明了其在开发环境中的实际应用价值。
在需要自主使用工具和进行多步骤推理的智能体任务中,该模型相比之前的开源系统展现出显著的改进。该公司开发了一套大规模的智能体任务合成流程,生成了超过1800个不同的环境和85000个复杂的提示,使该模型能够将推理策略推广到不熟悉的工具使用场景中。
DeepSeek 已在 Hugging Face 上开源了基础 V3.2 模型,使企业无需依赖任何供应商即可部署和定制该模型。由于 Speciale 版本需要更高的令牌使用量,因此仍只能通过 API 访问——这是在最大性能和部署效率之间做出的权衡。
行业影响和认可
此次发布在人工智能研究界引发了广泛讨论。谷歌DeepMind首席研究工程师Susan Zhang对DeepSeek详尽的技术文档给予了高度评价,尤其赞扬了该公司在训练后模型稳定性以及增强智能体能力方面所做的工作。
在神经信息处理系统大会(NeurIPS)召开前夕发布这一消息,更加引人注目。参加圣地亚哥NeurIPS大会的中国开源人工智能生态系统专家Florian Brand注意到,DeepSeek的公告一经发布,所有群聊都爆满了。
已承认的局限性和发展路径
DeepSeek 的技术报告指出,与前沿模型相比,其当前模型存在一些不足。代币效率仍然是一个挑战——DeepSeek V3.2 AI 模型通常需要更长的生成轨迹才能达到 Gemini 3 Pro 等系统的输出质量。该公司也承认,由于总训练计算量较低,其全球知识的广度落后于领先的专有模型。
未来的发展重点包括扩大预训练计算资源以扩展世界知识,优化推理链效率以改进令牌使用,以及改进复杂问题解决任务的基础架构。

