跳转到内容

不发明轮子的人

DeepSeek V4 工程整合哲学信息图

我花了一个下午读完 DeepSeek V4 的技术报告,又花了两天时间把相关的讨论、评论、爆料全翻了一遍。最后脑子里只剩一个念头:这家公司最厉害的地方,不是它做出了什么新东西,而是它把别人做出来的东西,拼成了别人拼不出的形状。

先说 V4 最被津津乐道的数字:百万 token 上下文,单 token 推理 FLOPs 只有 V3.2 的 27%,KV 缓存砍到 10%。这组数字意味着什么?意味着你给它扔一本 50 万字的小说,它不会喘;意味着一个 agent 跑几百步工具调用,中间不会断。之前用开源模型做 agent 最头疼的事——上下文爆了、KV 缓存把 GPU 塞满了、工具调用跑到一半降级了——V4 是冲着这些问题去的。

但怎么做到的?这里就有意思了。

他们搞了一套混合注意力:CSA 把每 4 个 token 压成 1 个,做稀疏选择;HCA 更狠,128 个 token 压成 1 个,不做选择但序列已经短到可以暴力算。两套结构在 61 层里交替叠加,前面几层用 HCA 抓全局,中间 CSA 和 HCA 穿插,最后用滑动窗口保局部细节。再加上 FP8 存 KV、FP4 跑 indexer,存储成本叠着压缩比往下砍。

DeepSeek V4 混合注意力架构:CSA 与 HCA 交替叠加

这套东西不是从零冒出来的。CSA 的稀疏选择继承自 V3.2 的 DeepSeek Sparse Attention,HCA 的密集压缩思路在长上下文领域早有探索。DeepSeek 做的事,是把两条路接在一起,让它们在不同层各司其职。

不同来源的创新被拼装整合到 DeepSeek V4

残差连接的故事更能说明问题。

残差连接是 2016 年何恺明在 ResNet 里提出来的,十年了,几乎没动过。模型一层层堆,梯度沿着残差往回传,这是深度学习能 work 的前提。但模型越来越大之后,传统残差开始出问题——信号传着传着就失真了,训练动不动崩。

字节的 Seed 团队提出了一种叫 Hyper-Connections(HC)的方案:把残差流从一条路拆成多条并行通道,通道之间用矩阵混合。思路很漂亮,相当于给信号加了一条高速公路。但 DeepSeek 在实际堆多层的时候发现,HC 在超深层训练时数值会漂移,梯度说崩就崩。

怎么办?DeepSeek 给那个混合矩阵加了一个约束——让它变成双随机矩阵,行和列的和都等于 1。这保证了信号在通道之间传递时不会被放大也不会被缩小。数值稳定性就稳住了。这就是 mHC。

你看这个过程:字节提了一个 idea,好用但不稳;DeepSeek 拿过来,加了一刀约束,变成了自己的。论文 2025 年 12 月底挂 arXiv,梁文锋亲自挂名。四个月后,mHC 进了 V4 的每一层。

优化器也是借的。Muon 是 Kimi 团队提出来的,DeepSeek 在 V4 里直接用它替掉了 AdamW,接管绝大多数参数的训练。理由很实际:Muon 收敛更快,训练更稳。不是自己发明的?没关系,好用就行。

更有意思的是他们放弃了什么。从 V2 到 V3,DeepSeek 一直用自家提出的 MLA(多头潜在注意力),行业一度认为先进开源模型架构已经收敛到 MLA 了。结果 V4 直接放弃 MLA,重回 MQA。ICLR 会议上大家讨论这事的时候,有人感慨:模型架构还有很大改进空间,谁也别觉得自己找到了终极答案。

量化交易思维与 AI 研发的一脉相承

理解 DeepSeek 为什么是这种做事方式,得看梁文锋这个人。

1985 年生在广东湛江吴川,父亲是小学老师。2002 年以吴川一中高考状元的成绩考上浙大,本硕都是浙大,学的是信息与通信工程。没有海外名校镀金,硬功夫出身。

但他做的事情跟大多数 AI 公司创始人不一样。他不是从学术圈出来的,他是从量化投资圈出来的。2015 年和浙大同学创立幻方量化,管着 700 多亿的盘子,2025 年收益率 56.55%。量化交易的本质是什么?不是发明新的数学定理,是把已有的信号、因子、模型拼装成一个能跑的系统。谁的系统整合得好,谁就赚钱。

DeepSeek 的做事方式跟这个一脉相承。mHC 是字节的 HC 加一刀约束;Muon 是 Kimi 的优化器直接拿来用;CSA 继承自自家上一代;HCA 借鉴长上下文领域已有思路。没有一项是”从零发明”,但拼在一起的效果,SWE Verified 跑出 80.6,跟 Opus-4.6-Max 的 80.8 只差 0.2。

做事靠借,花钱也靠自己——梁文锋给 DeepSeek 立了”三不”规矩:不接受外部融资、不稀释股权、不被任何人的商业化时间表绑架。幻方的钱够用,就不拿外面的钱。拿了别人的钱,就得听别人的节奏。梁文锋不要这个。

直到今年 4 月,风向变了。首轮融资浮出水面,估值从 100 亿美元一路飙到 3500 亿元,梁文锋自己掏 200 亿,占 40%。即便融资,他也要绝对控制权——通过投票权委托,实际控制权 89.5%。

为什么现在要融了?因为算力不够烧了。V4 的训练用了 32 万亿个 token,每次迭代都是对算力储备的极限考验。幻方的钱撑研发够,撑下一代训练不够了。

中国开源与硅谷闭源:两条不同的路

V4 技术报告里有一段话,在 AI 圈里显得格格不入:

“V4 的能力水平仍落后于 GPT-5.4 和 Gemini-3.1-Pro,发展轨迹大约滞后前沿闭源模型 3 至 6 个月。”

你什么时候见过一家 AI 公司在自己的技术报告里承认自己落后?大家都在喊”全球第一""行业领先""超越 GPT”,DeepSeek 说”我们落后 3 到 6 个月”。

这不是示弱。这是一种清醒。

OpenAI 月更一次,Anthropic 密集连发 Claude 4 系列,国内智谱、Kimi、字节也在卷。DeepSeek 从 V3.2 到 V4 中间隔了快五个月,被网友戏称”DeepSeek已成Next Week”。但它不急。它选了一条更难的路:在英伟达 CUDA 生态之外,适配华为昇腾芯片,从底层架构开始搭自主训练体系。

V4 首次在官方技术报告里,把国产芯片和英伟达 GPU 写进同一份硬件验证清单。华为昇腾 950PR 今年 3 月量产,单卡算力比英伟达对华特供版 H20 提升 2.87 倍,采购价只有 H200 的三分之一到四分之一。阿里、字节、腾讯已经向华为下单数十万颗。

黄仁勋 4 月中旬接受采访时说了一句大实话:“要是哪天像 DeepSeek 这样的成果先在华为平台上出现,那对美国会是非常糟糕的结果。“话音没落,靴子落地。

有人问:DeepSeek 到底是来掀桌子的还是来打牌的?

我觉得都不是。梁文锋是组牌局的人。

他把 Kimi 的 Muon 拿来,把字节的 HC 改造了,把自家上一代的稀疏注意力升级了,把华为的芯片适配了。每一项单独拿出来都不算惊天动地的发明,但拼在一起,一个 270 人的团队,做出了 SWE Verified 80.6 的开源模型。

五月初,一个美国独立开发者用 V4 做了个叫 DeepSeek-TUI 的终端编程 agent,GitHub 上四天涨了三千多 star。做的是跟 Claude Code 一样的事,价格是几十分之一。

这就是梁文锋的路:不在”谁最强”上跟你掰手腕。你造轮子,我装车。你开赛道,我组局。

技术报告里那句话说得准——“不诱于誉,不恐于诽,率道而行,端然正己。“十六个字,不是喊口号。是做事方式。

你平时用 AI 编程或者做 agent 任务,最头疼的是什么?上下文太短?还是跑着跑着就断了?

Hugging Face. DeepSeek-V4: a million-token context that agents can actually use. https://huggingface.co/blog/deepseekv4

DeepSeek. DeepSeek-V4 技术报告. https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf