不发明轮子的人

DeepSeek V4 工程整合哲学信息图

我花了一个下午读完 DeepSeek V4 的技术报告，又花了两天时间把相关的讨论、评论、爆料全翻了一遍。最后脑子里只剩一个念头：这家公司最厉害的地方，不是它做出了什么新东西，而是它把别人做出来的东西，拼成了别人拼不出的形状。

先说 V4 最被津津乐道的数字：百万 token 上下文，单 token 推理 FLOPs 只有 V3.2 的 27%，KV 缓存砍到 10%。这组数字意味着什么？意味着你给它扔一本 50 万字的小说，它不会喘；意味着一个 agent 跑几百步工具调用，中间不会断。之前用开源模型做 agent 最头疼的事——上下文爆了、KV 缓存把 GPU 塞满了、工具调用跑到一半降级了——V4 是冲着这些问题去的。

但怎么做到的？这里就有意思了。

他们搞了一套混合注意力：CSA 把每 4 个 token 压成 1 个，做稀疏选择；HCA 更狠，128 个 token 压成 1 个，不做选择但序列已经短到可以暴力算。两套结构在 61 层里交替叠加，前面几层用 HCA 抓全局，中间 CSA 和 HCA 穿插，最后用滑动窗口保局部细节。再加上 FP8 存 KV、FP4 跑 indexer，存储成本叠着压缩比往下砍。

DeepSeek V4 混合注意力架构：CSA 与 HCA 交替叠加

这套东西不是从零冒出来的。CSA 的稀疏选择继承自 V3.2 的 DeepSeek Sparse Attention，HCA 的密集压缩思路在长上下文领域早有探索。DeepSeek 做的事，是把两条路接在一起，让它们在不同层各司其职。

借来的轮子

不同来源的创新被拼装整合到 DeepSeek V4

残差连接的故事更能说明问题。

残差连接是 2016 年何恺明在 ResNet 里提出来的，十年了，几乎没动过。模型一层层堆，梯度沿着残差往回传，这是深度学习能 work 的前提。但模型越来越大之后，传统残差开始出问题——信号传着传着就失真了，训练动不动崩。

字节的 Seed 团队提出了一种叫 Hyper-Connections（HC）的方案：把残差流从一条路拆成多条并行通道，通道之间用矩阵混合。思路很漂亮，相当于给信号加了一条高速公路。但 DeepSeek 在实际堆多层的时候发现，HC 在超深层训练时数值会漂移，梯度说崩就崩。

怎么办？DeepSeek 给那个混合矩阵加了一个约束——让它变成双随机矩阵，行和列的和都等于 1。这保证了信号在通道之间传递时不会被放大也不会被缩小。数值稳定性就稳住了。这就是 mHC。

你看这个过程：字节提了一个 idea，好用但不稳；DeepSeek 拿过来，加了一刀约束，变成了自己的。论文 2025 年 12 月底挂 arXiv，梁文锋亲自挂名。四个月后，mHC 进了 V4 的每一层。

优化器也是借的。Muon 是 Kimi 团队提出来的，DeepSeek 在 V4 里直接用它替掉了 AdamW，接管绝大多数参数的训练。理由很实际：Muon 收敛更快，训练更稳。不是自己发明的？没关系，好用就行。

更有意思的是他们放弃了什么。从 V2 到 V3，DeepSeek 一直用自家提出的 MLA（多头潜在注意力），行业一度认为先进开源模型架构已经收敛到 MLA 了。结果 V4 直接放弃 MLA，重回 MQA。ICLR 会议上大家讨论这事的时候，有人感慨：模型架构还有很大改进空间，谁也别觉得自己找到了终极答案。

梁文锋的底牌

量化交易思维与 AI 研发的一脉相承

理解 DeepSeek 为什么是这种做事方式，得看梁文锋这个人。

1985 年生在广东湛江吴川，父亲是小学老师。2002 年以吴川一中高考状元的成绩考上浙大，本硕都是浙大，学的是信息与通信工程。没有海外名校镀金，硬功夫出身。

但他做的事情跟大多数 AI 公司创始人不一样。他不是从学术圈出来的，他是从量化投资圈出来的。2015 年和浙大同学创立幻方量化，管着 700 多亿的盘子，2025 年收益率 56.55%。量化交易的本质是什么？不是发明新的数学定理，是把已有的信号、因子、模型拼装成一个能跑的系统。谁的系统整合得好，谁就赚钱。

DeepSeek 的做事方式跟这个一脉相承。mHC 是字节的 HC 加一刀约束；Muon 是 Kimi 的优化器直接拿来用；CSA 继承自自家上一代；HCA 借鉴长上下文领域已有思路。没有一项是”从零发明”，但拼在一起的效果，SWE Verified 跑出 80.6，跟 Opus-4.6-Max 的 80.8 只差 0.2。

做事靠借，花钱也靠自己——梁文锋给 DeepSeek 立了”三不”规矩：不接受外部融资、不稀释股权、不被任何人的商业化时间表绑架。幻方的钱够用，就不拿外面的钱。拿了别人的钱，就得听别人的节奏。梁文锋不要这个。

直到今年 4 月，风向变了。首轮融资浮出水面，估值从 100 亿美元一路飙到 3500 亿元，梁文锋自己掏 200 亿，占 40%。即便融资，他也要绝对控制权——通过投票权委托，实际控制权 89.5%。

为什么现在要融了？因为算力不够烧了。V4 的训练用了 32 万亿个 token，每次迭代都是对算力储备的极限考验。幻方的钱撑研发够，撑下一代训练不够了。

自己说自己落后

中国开源与硅谷闭源：两条不同的路

V4 技术报告里有一段话，在 AI 圈里显得格格不入：

“V4 的能力水平仍落后于 GPT-5.4 和 Gemini-3.1-Pro，发展轨迹大约滞后前沿闭源模型 3 至 6 个月。”

你什么时候见过一家 AI 公司在自己的技术报告里承认自己落后？大家都在喊”全球第一""行业领先""超越 GPT”，DeepSeek 说”我们落后 3 到 6 个月”。

这不是示弱。这是一种清醒。

OpenAI 月更一次，Anthropic 密集连发 Claude 4 系列，国内智谱、Kimi、字节也在卷。DeepSeek 从 V3.2 到 V4 中间隔了快五个月，被网友戏称”DeepSeek已成Next Week”。但它不急。它选了一条更难的路：在英伟达 CUDA 生态之外，适配华为昇腾芯片，从底层架构开始搭自主训练体系。

V4 首次在官方技术报告里，把国产芯片和英伟达 GPU 写进同一份硬件验证清单。华为昇腾 950PR 今年 3 月量产，单卡算力比英伟达对华特供版 H20 提升 2.87 倍，采购价只有 H200 的三分之一到四分之一。阿里、字节、腾讯已经向华为下单数十万颗。

黄仁勋 4 月中旬接受采访时说了一句大实话：“要是哪天像 DeepSeek 这样的成果先在华为平台上出现，那对美国会是非常糟糕的结果。“话音没落，靴子落地。

组牌局的人

有人问：DeepSeek 到底是来掀桌子的还是来打牌的？

我觉得都不是。梁文锋是组牌局的人。

他把 Kimi 的 Muon 拿来，把字节的 HC 改造了，把自家上一代的稀疏注意力升级了，把华为的芯片适配了。每一项单独拿出来都不算惊天动地的发明，但拼在一起，一个 270 人的团队，做出了 SWE Verified 80.6 的开源模型。

五月初，一个美国独立开发者用 V4 做了个叫 DeepSeek-TUI 的终端编程 agent，GitHub 上四天涨了三千多 star。做的是跟 Claude Code 一样的事，价格是几十分之一。

这就是梁文锋的路：不在”谁最强”上跟你掰手腕。你造轮子，我装车。你开赛道，我组局。

技术报告里那句话说得准——“不诱于誉，不恐于诽，率道而行，端然正己。“十六个字，不是喊口号。是做事方式。

你平时用 AI 编程或者做 agent 任务，最头疼的是什么？上下文太短？还是跑着跑着就断了？

原文参考

Hugging Face. DeepSeek-V4: a million-token context that agents can actually use. https://huggingface.co/blog/deepseekv4

DeepSeek. DeepSeek-V4 技术报告. https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf