DeepSeek V4 Pro 来了！标配百万上下文，国产模型再次刷新开源 AI 天花板？

2026年4月26日 08:31:45评论

最近一大消息就是开源 AI 大模型圈的“卷王” DeepSeek，憋了 15 个月后，终于把全新系列模型 DeepSeek-V4 正式公布出来了，而且照惯例，同步开源！

一时间朋友圈、技术群各种消息满天飞。现在 DeepSeek 官网和 API 都直接能用 v4 了！包括众多第三方算力平台也陆续上线。之前 Claude、Gemini、ChatGPT、Qwen 等行业里各家一直在疯狂迭代。终于，终于轮到有着“国产 Ai 图腾”、价格屠夫之称的 DeepSeek 来炸一回场了……

DeepSeek 官网：https://www.deepseek.com/

DeepSeek-V4 依然价格屠夫

现在通过 DeepSeek 官网或 SophNet、七牛云等一些第三方 API 算力平台都能用到最新的 DeepSeek-V4 模型了。在经过超长等待后，这次 V4 似乎不单只是参数上的常规升级，它似乎又打算把 AI 的训练方法和架构重新定义一遍。还有更炸裂的，就是那个百万 token 上下文。

百万字，换算成中文，能吞下约 75 万字，相当于能一口气啃下完整的《三体全集》三部曲！而且官方明说了：从现在开始，1M（一百万）上下文将是 DeepSeek 所有官方服务的标配。不是限量内测，不是高级付费功能，是你随便开个聊天窗，随便调个 API，它天生就能记住这么多。

以前我们用 AI 聊天、写代码，本质上是在跟一个“健忘的实习生”对话，聊多了它就忘了前面说啥。你得不停地把重要信息塞进 Prompt 里，或者让它自己“回忆”。现在，这个实习生的记忆力突然从金鱼变成了大象。你可以把整个代码库、整份研究报告、整个任务背景一股脑儿丢给它，它都能接着。

这意味着，那些需要长期记忆、复杂规划的 Agent 任务，终于可以踏实放心地长时间跑了，不用再担心“上下文超限请缩减输入”这种烦人提示；以及跑着跑着就忘记前面的要求等情况了。

DeepSeek-V4 Pro 与 Flash 两大模型

这次 DeepSeek 一次性推出了两款模型，按大小分为两个版本，分工明确：

1、DeepSeek-V4-Pro

DeepSeek-V4-Pro：性能旗舰，总参数量达 1.6T，但每次激活只有 49B 参数干活（MoE 架构的精髓）。它瞄准的是比肩顶级闭源模型。

Agent 能力：大幅跃升！官方内部员工已经把它当作日常主力编程模型了。在 Agentic Coding 评测里， V4-Pro 直接拿下当前开源模型的最佳成绩。员工的实测反馈是：使用体验优于 Claude Sonnet 4.5，交付质量接近 Claude Opus 4.6 的非思考模式。当然，官方也很克制地说，和 Opus 4.6 的思考模式还有差距。这种有一说一的姿态，反而让人觉得更靠谱。
世界知识：在世界知识测评中大幅领先其他开源模型，仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。
推理性能：在数学、STEM、竞赛型代码的测评中，超越了当前所有已公开评测的开源模型，取得了和世界顶级闭源模型掰手腕的成绩。甚至在算法竞赛平台 Codeforces 上， V4-Pro-Max 评分达到了 3206，能排进人类选手榜前 25 名。

2、DeepSeek-V4-Flash

DeepSeek-V4-Flash：更快捷高效的经济之选。总参数 284B，激活参数 13B。

相比 Pro 版本，它在世界知识储备方面稍逊一筹，但展现出了非常接近的推理能力。
由于模型参数和激活更小，它能提供更加快捷、经济的 API 服务。
在 Agent 测评中，简单任务上可以和 Pro 旗鼓相当，高难度任务上才有差距。
千万别把它当成“丐版”！选对了思考模式， Flash 的表现能大幅追近 Pro。日常轻量任务用 Flash，性价比超高；遇到硬骨头任务，打开它的 Think Max 模式，性能提升非常显著。

架构创新：将成本打下来的关键

为什么敢把百万上下文当作“标配”？过去很多模型宣传 1M 上下文，但实际用起来要么贵得要死，要么偷偷降级。因为传统注意力机制的计算量随序列长度平方增长，上下文一长，算力和显存开销就爆炸。

DeepSeek-V4 在架构层面做了大刀阔斧的创新，核心是全新的混合注意力机制。简单说，它不再让模型“平等地”看待每一个 token，而是学会了“挑重点看”。

它引入了压缩稀疏注意力 (CSA) 和重压缩注意力 (HCA)，结合 DeepSeek 稀疏注意力 (DSA)。比如 CSA 会把每 m 个 token 压缩成一条摘要，模型先快速浏览这些摘要挑出最相关的几条，再深入计算，同时用一个滑动窗口抓住眼前的局部细节。这就像你读一本厚书，不会逐字背，而是每几页记一个要点，回忆时先翻要点，再回原文细看。

效果是惊人的！在 1M 上下文场景下：

V4-Pro 的单 token 推理计算量仅为上一代 V3.2 的 27%！
V4-Pro 的 KV 缓存（短期记忆内存）占用仅为 V3.2 的 10%！
V4-Flash 更激进，计算量仅为 V3.2 的 10%， KV 缓存仅占 7%！

这意味着，同样的显卡和显存，现在能处理的请求量、支持的并发用户数，接近翻了十倍！这才是把长上下文从“营销噱头”变成“工程现实”的根本。