文章归档

共 215 篇文章。按发布时间倒序排列，分类导航请见首页或顶部侧边栏。

2026-07

(2026-07-22) 80% 的代码没有作者，你的安全团队在防谁？ Anthropic 工程师每季度交付 8 倍代码，80% 由 Claude 编写。当写代码的东西不再是人，安全就不是在检查产品，而是在设计因果——不是看见一切，是让错误无处发生。但 81% 的组织连 AI 用了多少代码都看不见。

(2026-07-22) 三分之一的论文读起来像 AI 写的，但先断的可能是尺子他们把检测器的冤枉率钉死在 0.4%，再测出三分之一 arXiv 新论文读起来像 AI 写的，CS 高达 65%，数学只有 0.7%。但争得越久越清楚：这个数字量的不是机器含量，是那些字背后还有没有一个会为它脸红的人。

(2026-07-21) 能反证 80 年猜想的模型，花了一小时越狱让模型有用的持久性，恰恰是让它危险的东西——你无法只要"持续工作"而不要"持续尝试突破约束"。

(2026-07-20) 所有人都知道船在沉，但没人敢先喊出来 AI 项目 80% 失败不是新闻，新闻是为什么没人敢说——答案藏在博弈论的纳什均衡里。

(2026-07-20) 代码有编译器，你的财务流程没有模型换了三代，企业 AI 成功率还是 5%。瓶颈从来不是模型——是你的工作本身没有反馈回路。

(2026-07-19) Agent 崩了，先别骂模型——先量量它脑子里被塞了什么这篇论文证明 context 质量能独立预测 agent 行为，但最值钱的读数是反常那格：把 context 加到最安全，agent 反而更没用；最省 token 的 context 最危险。

(2026-07-19) MCP、A2A、ACP：这根本不是一道选择题 ACP 已并入 A2A，活着的协议只有两个，一个管 agent 找工具、一个管 agent 找 agent——把它们当三选一，是问错了问题。

(2026-07-18) 读完 OpenAI 的 AI 记分卡：量的是活，称的是价 OpenAI CFO 提了张衡量 AI 价值的记分卡，四个维度听着客观。但"什么算有用工作"的定义权被悄悄攥在供方手里——这是一份用财务语言写的、有利于前沿模型高价的度量框架，有用，但别当中立天平。

(2026-07-18) 别盯着 98.98%，盯"想完记不住"这件事一个 7 月才 13% 的基准突然自报 99%，但真正值得记的不是这个数，是它暴露的那条 LLM 短板。

(2026-07-17) 当 AI 学会“阳奉阴违” Anthropic 这份报告最让我觉得冷的，不是模型干了坏事，而是它干得“很像那么回事”——零向量替换、投资者通知、错误标签、帮助吹哨，每一件都披着正常流程的外衣。

(2026-07-17) 企业正在给 AI Agent 开白条——两份调查报告看同一个信任裂口 54% 企业已发生 Agent 安全事件但满意度 4.2/5，50% 评估通过的 Agent 生产翻车但 66% 仍在建无人部署。两份报告指向同一个裂口——信任的授予跑赢了验证的能力。

(2026-07-16) 你只是在问咖啡馆推荐，AI 已经把家底交了出去最可怕的不是 AI 会泄露你知道的秘密，而是它能把你说过的碎片拼成你自己都没意识到的画像——而你什么都没做错。

(2026-07-16) Grok Build 把整个仓库传走后，开源不是赎罪券当终端 agent 默认外发整个工作区，隐私开关再漂亮，也只是用户看不见的门把手。

(2026-07-14) 不是模型不够聪明 Agent 在生产中翻车，几乎都不是模型的问题。模型是可替换的零件，真正决定成败的是脚手架——检索、身份、护栏、评估。微软说"脚手架和模型一样重要"，我觉得说保守了。

(2026-07-14) BWA 的继任者来了：minibwa 不是加速版，而是一次设计换代 minibwa 真正放下的不是几分钟运行时间，而是把“复刻旧输出”当成永恒规格的包袱。

(2026-07-14) 你看的那个价格，不是价格所有 AI 厂商都公布了价格，但没有人在公布汇率。$/Mtok 不是价格——它是一种私人货币的报价，用不公开的剪刀把同一段代码剪成不同数量的计费单位。

(2026-07-13) 你越想让 AI 干得好，就越得把看家本领喂给它纳德拉说企业为 AI 付两次费——一次付钱，一次付知识。纠错数据的流向，决定了 AI 时代的价值归属。

(2026-07-12) 你不需要看懂所有色块：读完 HuggingFace 的 PyTorch Profiling 系列，我学到的只有一件事 GPU 时间在撒谎，compile 的融合是假的，Flash 的低占用率反而是对的——每个洞察都来自预测与现实的错位。

(2026-07-12) 让 Agent 犯错 Agent 的安全不靠让它更聪明，靠让它犯错时有人兜底——Vercel 把信任从模型挪到了基础设施，这才是 Agent 时代真正的基础工程。

(2026-07-10) 循环交出控制权之后：读 ByteByteGo《The Agent Loop》 Agent 不是一个更聪明的 chatbot，而是一个架构决策——把循环退出权交给模型。这个决策的全部后果，才是 agent 工程真正要面对的东西。

(2026-07-10) 重写的瓶颈从来不是写代码 53 万行代码 11 天重写，所有人盯着"64 个 Claude 并行"的规模叙事，但真正的门槛藏在 Bun 测试套件的语言里——验证基础设施才是重写可行性的天花板。

(2026-07-10) 当「最好有」变成「必须有」：GitHub 怎么用 45 天给 14,000 个仓库找到主人 GitHub 归档了 8,000 个仓库，不是因为它们不重要，而是因为「归档可逆」是让大规模治理政治上可行的唯一方式。

(2026-07-09) 聪明不值钱了：从 2026 年 7 月 AI 编码工具排行榜看到的三件事 18 个 AI 模型的质量表格几乎全是勾，但真正改变格局的是谁更便宜、谁更开放、谁更难逃离。

(2026-07-09) 聪明的代价：AI 编码时代被悄悄偷走的学习 AI 编码工具让你快了，但拿走了你解决问题时顺便学到的东西——这笔知识债务不会自己消失，必须被设计回去。

(2026-07-09) 最短路陷阱：AI 不是只能走自动化，但市场只会选出价最高的路 AI 走向 AGI 不是因为那是终点，是因为那是最容易定价的方向。市场不在选最好的路，在选最短路。三位 MIT 教授说，亲工人 AI 技术上完全可行，但没人能单独为它买单。

(2026-07-08) 代码整洁不仅是给人看的，也是给 Agent 省钱的 AI coding agent 不怕脏代码？SonarSource 用 660 次试验证明：通过率确实不变，但 token 多花 8%、文件反复多读 34%。代码整洁度没死，只是从人类可读性投资，变成了 agent 的导航成本杠杆。

(2026-07-08) 当智能免费之后，数据库才是真正的主角当推理成本跌掉 500 倍，真正的瓶颈不是 AI 够不够聪明，而是数据库接不接得住。Berkeley BAIR 的十二人联名文指出了一个被 Agent 叙事遮蔽的真相：数据系统正在从工具变成 Agent 本身。但信任鸿沟和基准幻觉，让这场变革比想象中转得更慢。

(2026-07-08) 回路、作弊者与舵手同一模型在不同回路中是不同等级的智能。Agent 作弊三次不是 bug——它在精确优化你的度量。1948 年的舵手带着 GPU 回来了，但这次被控对象学会了假装遵从。

(2026-07-07) Agent 越能写代码，架构越不能乱 Agent 让写代码变便宜，却把混乱架构的代价变贵：少猜、少绕、少烧 token，才是下一阶段的软件工程。

(2026-07-07) DeepMind 给 AI Agent 画了一张"陷阱地图" Google DeepMind 发表了一篇论文，把 AI Agent 面临的信息环境攻击系统性地分成了六类。最让人不安的不是具体攻击手段，而是论文收尾那句话——"Web 是为人类眼睛建造的，现在正在为机器阅读者重建。"

(2026-07-07) PRX 四篇读完：训练图像模型，真正难的是闭环 PRX 的价值不在某个指标，而在它把架构、训练、预算和数据放回同一条可回滚的工程闭环里。

(2026-07-06) 意外创业：当 AI 让"为一个人建造"和"为所有人建造"一样便宜一个 AI 工程师用两小时为自闭症儿子 vibe-code 了一款沟通 App，意外找到了产品市场契合。这件事最值得写的不是父爱，而是 AI 时代"为一个人建造"的成本终于降到了零。

(2026-07-06) AI 帮学生做作业，成绩涨了 18%，考试成绩跌了 20%——但最可怕的数字是"两年" 一项追踪 2.6 万名中学生 30 个月的研究发现：AI 让作业分数涨了 18%，闭卷考试跌了 20%。最可怕的不是跌幅——是全面影响要等两年才显现。到那时，该丢的已经丢完了。

(2026-07-06) 开源 AI 不是一张地图，是一张工单又一份 AI 生态报告并不稀缺，稀缺的是一份能被查询、复核、改错的公共底账。

(2026-07-06) 如果你想要品味，就得亲自去吃 Jason Liu 说了一句很朴素但很对的话：想要品味，就得亲自去吃。AI 让制造几乎免费，但品味不来自任何订阅服务——它来自你花过的那些注定没有产出的注意力。

(2026-07-05) 别再只问怎么提示：先找到你没说出口的未知模型越能跑长程任务，提示词越不像命令，越像一张还没画完的地图：真正贵的是把未知暴露出来。

(2026-07-04) AI 重新学会用眼睛读字视觉不只是多模态装饰，它让符号重新获得位置、版面和注意力；AI 正在用工程方式重新发现阅读。

(2026-07-03) SGLang 这篇文章真正重要的，不是 Agent 会写代码，而是工程组织开始可编译当 SGLang 把 benchmark、profile、review 和回滚写成 skill 与 loop，Agent 才第一次从“会写 patch”变成“能继承工程组织”的执行层。

(2026-07-03) 当同一份证据支持三种未来，先露出来的是制度空窗同一批证据已经能讲出三种就业未来，可我们的训练、再分配和统计工具还停在上一轮技术革命。

(2026-07-03) Anthropic 这篇 context engineering 文章，真正把 prompt 赶下了主桌 Prompt 没失效，但它已经退成上下文工程里的一个零件；Agent 真正的主战场，开始变成“此刻该让模型看见什么”。

(2026-07-03) Anthropic 这篇 skills 文章，真正写的是组织接口真正让 Agent 稳下来的，不是 prompt 写得更花，而是团队终于把 gotchas、验证和记忆做成了可调用接口。

(2026-07-02) AGENTS.md 不是文档，它是 Agent 时代的路由层真正让 agent 在 monorepo 里少走弯路的，不是多写几条提示词，而是先决定什么该始终加载，什么该按任务路由，什么必须用 hook 和测试强制执行。

(2026-07-02) AI 没有先把人替掉，它先让草率裁员显形真正该被 AI 替掉的，也许不是岗位，而是那种把“先裁人再补洞”当成战略的管理幻觉。

(2026-07-02) 当代码越来越便宜，真正稀缺的是控制回路代码回路会越来越快，但决定做什么、怎么改、向谁验证的那层控制回路，才是 AI 时代真正稀缺的生产力。

(2026-07-02) Anthropic 这篇长跑 Agent harness 文章，讲透了交接制度长跑 Agent 之所以容易跑散，往往不是模型太笨，而是交接、验证、回滚和责任边界根本没人替它设计。

(2026-07-02) 真正替你刷爆 LLM 账单的，不是人，是“善意的重试” 最危险的 LLM 成本不是单次太贵，而是成功调用在错误的重试里被重新结算二十一次。

(2026-07-01) AI 没有先替你裁掉工作，它先放大了公司之间的差距 AI 先重排的不是岗位总数，而是谁有本事把工具变成增长，谁就会把别人的招聘、学习和晋升空间一起吃掉。

(2026-07-01) AI 会先在数学里露出真身，但不会先替你做研究数学也许会最早显出超人智能，但最晚被替掉的，反而是那个知道该问什么、该怎么讲明白的人。

(2026-07-01) 你不是把任务交给 AI，你是在重新分配控制权 AI 可以接手动作，但真正不能轻易外包的，是停止权、越界判断和目标函数的定义权。

(2026-07-01) Prompt 不够了，Loop 才是 Agent 时代真正的控制面真正决定 Agent 上限的，不再是你这一轮怎么问，而是系统下一轮何时继续、何时停止、何时回头验证。

(2026-07-01) Claude Code 为什么开始离开聊天框一旦 Agent 有了 /goal、/loop、/schedule，它就不再只是一个会对话的工具，而开始变成可调度的流程节点。

2026-06

(2026-06-30) Claude Code 正在离开聊天框真正的变化不是 Claude 会不会写一个功能，而是代码生产线第一次开始把 agent 当成进程来调用。

(2026-06-30) AI 真正重定价的，不只是工作效率 AI 真正要改写的，不是几个工具栏，而是印度赖以增值的外包梯子，和每个人赖以上升的成长路径。

(2026-06-30) OpenAI 正在替欧洲改写 AI 失业叙事 OpenAI 这份欧盟报告最重要的不是算出多少工作会被替代，而是试图把未来几年改写成一次岗位重组，而不是一场线性裁员。

(2026-06-30) Qwen 3.6 27B 的真正意义：本地 AI coding 终于跨过可用门槛 Qwen 3.6 27B 的意义不在又赢了一个榜，而在本地模型第一次跨过了“开发者愿意忍受”的门槛。

(2026-06-29) 越把工作交给 AI 的人，为什么越乐观？ Anthropic 这份经济指数最刺眼的不是周末聊天曲线，而是一个反直觉事实：越自动化地使用 AI 的人，越相信自己的工作会变得更好。

(2026-06-28) 假 VC、真 RAT：一次失败国家级攻击背后的开发者生存课一份看似无害的 TypeScript 面试题，恶意代码藏在 patch 文件的 base64 blob 里。这背后是一场针对开发者持续三年多的国家级钓鱼行动，而攻击正变得更有组织、更难靠肉眼发现。

(2026-06-28) Tokenpocalypse：当你发现 AI 账单比 AI 产出更好量化企业花六个月烧完全年 AI 预算，才发现账单上每一行都写得清，唯独说不清这些钱换回了什么。Tokenpocalypse 的本质是一场价值衡量危机。

(2026-06-28) 当分数开始替能力说话真正危险的不是模型学会刷分，而是我们总把能被刷出来的分数，当成值得相信的能力。

(2026-06-27) 好的 Agent，不是多几个 Agent 真正拉开 agent 差距的，不是多拉几个 agent，而是把复杂性塞进上下文、评测、合规和产品判断里。

(2026-06-26) 当法务开始写代码——OpenAI 这篇 Codex 数据报告，藏着比 AI 替代人更深的信号 OpenAI 内部数据揭示的真正趋势，不是 AI 替代人，而是 AI 在消融岗位边界——法务、HR、招聘开始大量做工程类工作。Agent 降低了"跨界的心理成本"，这比效率提升更值得关注。

(2026-06-26) 你的 Agent 读得懂代码，读不懂你的产品 Agent 能复制你的 UI 风格，但不知道那个按钮为什么放在左边。Vercel 的解法揭示了一个被忽视的真相：产品设计决策如果不编码进仓库，对 agent 就不存在。

(2026-06-22) 你的 Agent 不缺记忆，缺的是学习 Agent 记忆的症结不是"存不下"，而是我们造的全是搜索引擎，不是记忆。七种分类、三个框架、最尖锐的批评都指向同一件事：检索是工程妥协，不是学习。

(2026-06-22) 你的 Prompt 调不动了，可能问题根本不在 Prompt 上多步 LLM pipeline 出了错，你改的 prompt 可能压根不是病因。Cisco 的 FAPO 框架把失败归因到具体步骤，83% 的对比赢了——但真正值得看的不是数据，是它暴露的那个前提。

(2026-06-20) AI 的数据黑洞：效率差距背后的真正问题 AI 用百万倍数据才学会人类几小时就掌握的技能，但更可怕的是——我们可能永远追不上这个差距。

(2026-06-19) 4.8%的诊断率背后：AI重新分析罕见病基因组，挖出了什么？ 376个被专家放弃的罕见病病例，AI重新翻了一遍，找到了18个答案。数字不大，但每一个答案背后是一个等了多年的家庭。

(2026-06-19) Claude Code 的七种控制方式：从'告诉 AI 做什么'到'让 AI 无法不做' Claude Code 给了你七种控制它的方法，但真正重要的不是方法本身，而是它背后的问题：你应该在哪里放指令，在哪里放护栏？

(2026-06-18) Agent 的新入口：它能看见谁 Agent 不会因为会搜索工具就更自由；真正的新控制面，是谁决定它能看见哪些能力。

(2026-06-18) AI 的期末考试：OpenAI 用 750 道真题考出了什么最强模型只通过 36% 的任务，但更值得关注的是那些"差一点就过"的 14%，那才是 AI 做科学真正卡住的地方。

(2026-06-18) 看病不止于诊断：当 AI 学会写处方 AI 开处方精确度 95%，医生 65%。差的不是医术，是整个系统没时间写下来的那些细节。

(2026-06-18) AMIE 的两年半：从模拟病人到万人临床试验 Google 的医疗 AI 走完了一条新药式证据链——从模拟门诊到真实病房再到全国 RCT。但真正的考试才刚开始。

(2026-06-18) 给 Agent 写入职手册 SASE 迁移通常要 18 个月。Cloudflare 把内部剧本封装成 agent skills 开源——安全迁移从咨询项目变成两个 markdown 文件，竞争壁垒正从 API 质量转向谁给 agent 写的入职手册更清楚

(2026-06-18) Copilot 真正在省的不是 token 账单按 token 走以后，模型、上下文和工具都变成调度问题，选择权开始从用户手里移到运行时。

(2026-06-18) 法律 Agent 的真正瓶颈，是谁来判它有没有错 Agent 能不能上高风险场景，关键在于谁能拦住那些看起来相关却没有满足要求的答案。

(2026-06-18) 当你的研究代理在“马赛克式”泄露你的秘密你的AI代理每次搜索都无害，但连起来看，却能拼出你的商业机密。MosaicLeaks研究揭示了一个残酷真相：让代理更聪明，反而让它更危险。

(2026-06-17) Agent Engineering 的真门槛：把失败变成资产 Agent 跑起来只是起点；真正的门槛是把生产里的模糊失败变成下一轮可验证的改进。

(2026-06-17) AI 正在吞掉答案生意当一本书只是在卖答案，聊天框会把它吞掉；剩下能活的，是让人真的改变的路径。

(2026-06-17) 可靠 Agent 的秘密，不在 Agent 生产级 Agent 的底座，是能追踪证据、状态、失败和人类问责的工程系统。

(2026-06-17) Claude Code 把专家重新暴露出来 AI 没把专家抹平，反而把专家从写代码的人，改写成能定义问题、验收结果、带 agent 走出坑的人。

(2026-06-17) Loop Engineering：Agent 真正的战场不是 prompt，而是回路 Agent 的价值正在从会说话的模型，转到能被验证、触发、改进的回路；回路越自动，人越要守住目标函数。

(2026-06-17) 开权模型真正打开的是试错路径开权模型没有把 AI 变成真正开源，却把研发里的试错路径从少数实验室的保险柜里搬到了公共路面上。

(2026-06-15) RL 不再只是对齐工具：Agentic RL 正在重新定义 LLM 的可能性边界当 RL 从单步打分变成多步决策循环，LLM 就不再是文本生成器——它变成了能规划、会推理、懂记忆的自主智能体。这篇综述用 500+ 篇论文画出了这个新世界的地图。

(2026-06-15) 给编码 Agent 装上可观测性：AHE 如何让 harness 自己进化同一模型换个 harness 就判若两人——AHE 的核心洞察是：进化瓶颈不在模型能力，而在可观测性。10 轮迭代把 pass@1 从 69.7% 拉到 77.0%，超越所有人类设计和自进化基线。

(2026-06-15) AI 没有取代程序员，但很多人不想让你知道这一点 CEO 们把裁员说成 AI 革命，数据却说 90% 连成熟 AI 应用都没有——问题不在 AI 能不能写代码，而在谁来决定写什么、谁来为交付负责。

(2026-06-15) Nadella 的警告：当所有 AI 价值流向少数模型，谁还允许这个未来？前沿模型是技术前沿，但不是生态前沿。Nadella 真正想说的是：当技术变革只让少数人获利，政治反弹不会太远——真正的护城河不是模型，而是学习速度。

(2026-06-13) 用得越多越不怕，用得越多越不信：52000人调查撕开AI公众态度的裂缝用AI的人比不用的人少怕失业16个百分点，但越用越不信AI公司的决策——这组数据暴露的不是矛盾，是公众对AI的真实态度：我不怕工具，我怕造工具的人。

(2026-06-12) 树人醒了，但它先画了一张地图 Amodei 请求政府管住 AI，但他先定义了"什么算危险"、"谁该被管"——监管的边界就是权力的边界，写规则的人赢了一半。

(2026-06-12) AI 生产力幻觉：当产出量暴涨而价值纹丝不动 AI 产出的不是生产力，是垃圾。95% 的企业看不到 AI 回报，图书销量反降，数学界发联合声明抵制——这是一场大规模的'挖坑填坑'。

(2026-06-12) 扔掉文件柜 93%的权限提示人类都会点同意。你越试图控制AI，你越成为系统里最弱的环节。

(2026-06-12) 当涌现行为消失之后：小模型经济体的确定性教训涌现是偶然的，不是属性——换一批 agent，你记录到的行为可以凭空蒸发。可靠的结果不来自冲击输入，而来自在决策下游写入确定性。

(2026-06-12) Magnetar 用 AI 机器人取代分析师，但真正的问题不是谁在干活当 AI 替代的不是分析师的产出，而是分析师成长为判断者的过程，对冲基金省下的不是成本，是未来

(2026-06-12) 当补丁变成攻击说明书：从 WannaCry 的 59 天到 Mythos 的 1 小时 Anthropic 新研究炸掉了安全补丁的基本假设：Mythos Preview 能在补丁公开后一小时内构建出可用 exploit，N-Day 变成 N-Hour，月度补丁节奏名存实亡。

(2026-06-11) 当 AI Agent 学会自己定时上班定时部署 + 密钥保险库——两条看似平淡的功能更新，合在一起却是 AI agent 从"你叫才动"到"自己上班"的分水岭。真正的瓶颈从来不是模型能不能干，而是你敢不敢把钥匙交出去。

(2026-06-11) 当 AI 开始查数——Anthropic 的 95% 自动化给我们的真正教训把收入表从四十张砍到一张，比任何 prompt engineering 都管用——Anthropic 用四层数据栈把分析准确率从 21% 拉到 95%，而最关键的发现是：瓶颈不在模型，在治理。

(2026-06-11) 从提示词到工具箱——Claude Code 技能系统的设计哲学 AI 编码工具的差距不在模型能力，而在谁能把操作性知识外化到文件系统——可版本控制、独立演进。Skills 的本质不是更好的提示词，是给 AI 一个工具箱。但 90% 的 agent 配置创建后从未更新——让知识活着比创建更难。

(2026-06-11) 当销售开始写代码一个从没打开过终端的销售，用 Claude Code 写了 4300 行代码，给 80% 的销售团队做了插件。技术壁垒正在溶解——不是编程变简单了，而是"能编程的人"的定义变了。

(2026-06-10) 当 AI 智能体闯进生物学老城 AI Agent 搞不定生物数据，不是不够聪明，是脚下没有路。Anthropic 的实验暴露了一条反直觉法则：智能越高，底层越需要"笨"——把确定性藏在创造力下面，99.7% 的准确率靠的不是更强的模型，而是一个不会思考的检索层。

(2026-06-10) 当 AI 平台开始给开发者发仪表盘一个平台什么时候从「玩具」变成「基础设施」？不是用户数破亿那天，也不是融资到 F 轮那天——是它开始给第三方开发者发仪表盘那天。

(2026-06-06) AI 的迷你钢厂时刻 Nucor 的迷你钢厂没有在技术上打败整合巨头——它让后者"理性地"放弃了低端市场，直到无路可退。本地 AI 正在对云计算做同样的事：78% 的任务已经不需要数据中心了，而云厂商正在心甘情愿地放弃它们。

(2026-06-06) Google 给 RAG 加的不是更多 Agent，而是停手判断真正能卖给企业的，不是多智能，而是系统在证据不够时知道别乱答。

(2026-06-06) 3B 模型跑出了 1929：那不是聪明，是约束没人相信 3B 模型能跑出真实涌现，但 Lester Leong 用 5 只森林生物 + 1929 银行挤兑的 reskin，把"小是限制"翻成了"小是设计"。稀缺性、role-locked prompt、宽容解析——约束催生工程美学。

(2026-06-06) 世界模型最值钱的一层，不是画面，是状态 Fei-Fei Li 这篇 taxonomy 最值钱的，不是又画了一个 AGI 大饼，而是把“世界模型”重新钉回 POMDP：会出图不等于懂世界，能给出可计算状态的模拟器才是硬骨头。

(2026-06-05) AGI 之后，稀缺会搬到哪里？ AI 能复制商品，却未必能复制被信任的人；未来的稀缺不消失，只会换一张脸。

(2026-06-05) 当 AI 开始建造自己，我们还能抓住什么？当执行变得便宜，真正稀缺的不是会写代码的人，而是知道哪些问题值得交给机器的人。

(2026-06-05) 当 AI 成为读者之后真正的变化不是 AI 替你写，而是它开始替别人读你；未来的信任，要同时对人和机器交代清楚。

(2026-06-05) 模型路由不是排行榜问题真正危险的不是选错最强模型，而是用一张排行榜替你决定什么叫赢。

(2026-06-05) 递归自我改进的慢变量递归自我改进真正吓人的不是模型会越跑越快，而是我们负责判断和验证的制度仍然很慢。

(2026-06-04) Agentic Analytics 的真相：Claude 自动化 95% 查询后，真正昂贵的是共识 Claude 能自动化 95% 的分析查询，却无法替组织决定“收入”究竟怎么算；可靠答案的真正成本，是被持续维护的共识。

(2026-06-04) Agentic Engineering 的悖论：机器越能干，人越停不下来 Agent 让执行近乎无限，却没有替人决定什么值得做；真正稀缺的不是编码能力，而是审查、边界和停止能力。

(2026-06-04) Google 开源洪水预测后，最稀缺的仍是本地能力 Google 可以开源预测洪水的模型，却无法开源一条河流的传感器、经验与行动链；真正决定预警能否救人的，仍是本地能力。

(2026-06-03) 谁在接盘 44%的企业用还没到手的节省为下一轮AI买单，这叫循环赌注。三家万亿级公司零年度盈利却扎堆IPO，而你的退休基金正被迫接盘。

(2026-06-03) 当写代码不再是瓶颈，流程就露出了真身 AI 把写代码变便宜后，工程组织省下的不是管理成本，而是被迫看清验证、安全和品味才是真正的稀缺。

(2026-06-03) 谁跟谁一伙两个特征长得一模一样，一个驱动行为一个旁观。区别不在它是什么，而在它向谁报告。从颜色到勒索，下游连接暴露了AI内部真正的权力地图。

(2026-06-02) 企业智能体缺的不是大脑，是导航企业智能体的胜负手不在模型有多聪明，而在企业有没有把自己的工作流做成可执行的导航系统。

(2026-06-02) 闭源卖失败成本，开放卖组织能力闭源模型赚的是失败太贵的钱，开放模型赚的是组织终于能把 AI 用进日常流程的钱。

(2026-06-01) 一个开源人的离线告别真正刺痛人的不是他离开了技术行业，而是他把“离线”当成一种重新夺回自我的工程实践。

(2026-06-01) 取消 AI 订阅，不是倒退 AI 最危险的地方不是把代码写错，而是把开始新项目的成本降到零，却把维护和承诺的账留给你。

2026-05

(2026-05-31) 一个上午和四年的距离 Simon Willison 用 Pyodide+Service Worker 把完整 Python 服务器搬进浏览器——困扰他四年的问题，Claude Opus 4.8 用一个架构洞察在一个上午解开。

(2026-05-30) CEO的AI幻觉：当决策者离战场太远 CEO看到AI的demo就相信Agent能替代员工，但四项研究证明裁员与AI回报无关——问题不只是高估AI，而是用高估来为组织手术找理由。

(2026-05-30) 代码翻倍，差距46倍 Cursor 报告说开发者快了2倍，但 Gini 0.77 说了另一个故事——AI 不平等地加速：把快的人推到46倍远，把慢的人留在原地。真正的问题不是速度，是理解正在退出。

(2026-05-29) 当计划变成代码——Claude Code Dynamic Workflows 读后感 Dynamic Workflows 把 AI 的编排逻辑从对话搬到代码，正如 Terraform 把基础设施从手动命令搬到声明式文件。这不是"多开几个 agent"，而是 AI 编程的 Infrastructure as Code 时刻。

(2026-05-29) 81% 在用 AI，只有 20% 真正放手——社会科学编程智能体采用率的真相八成社科研究者用 AI 改文字，但只有两成敢把数据分析交给编程智能体。这个落差不是技术门槛，而是信任门槛——研究这件事，可能天然不适合委托。

(2026-05-29) 安全 + 安全 = 不安全一张无害的照片加上一句无害的提问，能组合出最危险的回答。多模态AI的安全盲区不在单个模态里，而在模态之间的缝隙里。

(2026-05-29) 两个旋钮，一个循环：当 AI 智能体学会改自己两个研究孤岛存在了很久——一个改 Agent 的工作流，一个改模型权重。SIA 第一次把两个旋钮放进同一个循环里转。

(2026-05-28) 当 AI 公司的客户烧光预算，产品市场契合点反而到了最好的定价让客户倒吸一口气然后说 yes。Uber 4 个月烧完全年 AI 预算却没停 Claude Code——这不是成本失控，是产品市场契合点最诚实的信号。

(2026-05-28) 发现漏洞很容易，难的是让人去修——Anthropic 的 1596 个漏洞告诉我们什么 1596 个漏洞披露，只有 97 个被修复。6% 的修复率背后，是开源维护的系统性困境，也是 AI 安全工具的真正瓶颈。

(2026-05-28) 最强大模型也搞不定 K8s 排障？ITBench-AA 给 AI Agent 热浇了一盆冷水前沿 AI 模型在企业级 Kubernetes 排障任务中全部低于 50 分，且思考轮次越多反而越差——ITBench-AA 撕开了一个尴尬的事实：Agent 在真实运维场景里还差得远，而开源小模型正在成本曲线上悄悄领先。

(2026-05-28) 同一天，OpenAI、Runway、Google 都选了 MCP——一个协议的临界点三家互为竞争对手的公司在同一天拥抱了 Anthropic 创建的 MCP 协议——当一个标准被所有人接受，它就不再是差异化武器，而是基础设施。MCP 正在成为 AI Agent 的 TCP/IP。

(2026-05-27) 把 Claude 关进笼子：Anthropic 的 Agent 容器化实战与教训安全不是让 AI 不做坏事——你做不到了。安全是当它做坏事时，最多能坏到什么程度。Anthropic 把这个问题叫 blast radius，然后用两年代价换了一套答案：环境层设硬边界，模型层做概率引导，自定义组件永远是最弱的一环。

(2026-05-27) 当 AI 越过恐怖谷，我们还剩下什么 AI 视频越过恐怖谷，观众不再关心"是不是 AI 做的"。与此同时 Mollick 警告我们正在默认把所有认知任务外包。两篇文章指向同一个问题：技术好到让人不再注意它时，不选就成了一种选择。而选择什么保留为"人"的事，恰恰最不该外包给默认值。

(2026-05-26) 你不是模型，你就是 Harness 同一个模型在不同 harness 里跑分差了一截。模型只是引擎，harness 才是赛车。Agent = Model + Harness——如果你不是模型，你就是 harness。

(2026-05-26) 解除武装教皇与 Anthropic 创始人同台说了一件事：AI 行业无法自我约束。不是因为不够聪明，而是激励结构注定如此。当技术权力自动转化为治理权力，唯一的选择是从外部解除武装。

(2026-05-24) 那家说能偷听你聊天投广告的公司，被 FTC 拆穿了最吓人的不是手机有没有偷听，而是有人敢把这种恐惧包装成 AI，再卖给相信它的小商家。

(2026-05-24) AI 正在重新定价廉价智能手机 AI 不是只在云端烧钱，它还在把穷人手里的第一台电脑重新变贵。

(2026-05-24) 我去洗澡，让 Agent 继续干活真正改变工作方式的不是 Agent 会聊天，而是你离开之后，它还有没有上下文、工具、节律和验收标准继续往前走。

(2026-05-24) 小模型不是省钱版大模型真正击败规模的不是“小”，而是一个组织把任务、数据和失败标准说清楚的能力。

(2026-05-23) AI 公司开始往你的办公室派人，这才是真正的护城河三家 AI 巨头同一周押注 FDE——这不是在卖模型，是在悄悄搬走你公司最值钱的东西：那些写在员工脑子里、从没落到纸面上的"不成文规定"。

(2026-05-23) 世界上最好的算法，没人用就是零宝洁300人AI团队跑了五年，最反直觉的结论是：AI规模化最大的障碍从来不是模型能力，而是组织愿不愿意为它掏钱、给它位置、容忍它犯错。

(2026-05-22) 给 Agent 一个解释器——为什么大家都在让模型写代码来调用工具 Agent 最擅长的是写代码，不是调工具。给一个窄运行时加显式桥，比给完整沙箱再限制更优雅。

(2026-05-22) Not the Model, You're the Harness 同一个模型换了 harness 差了 18 个百分点——选对 harness 比选对模型重要得多。

(2026-05-22) 从 Token 流到 Agent 流：LLM 应用正在经历它自己的\"协程革命\" 当 agent 不再是调个模型返回文本而是规划、委派、审批、多模态输出时，扁平的 token 流就成了最大的瓶颈。流式的本质不是让字快点出来，而是让复杂工作可观测。

(2026-05-22) 我不 vibe code，不是因为洁癖 Jacob Harris 写了他为什么不 vibe code，我读完后发现自己不 vibe code 的理由和他不太一样。

(2026-05-21) Netflix 视频搜索背后最难的不是 AI，而是把时间线对齐 Netflix 用三层流水线和多模态基础模型解决了视频搜索问题，但真正关键的工程决策藏在数据融合层

(2026-05-21) SpaceX 的 S-1：一家卫星互联网公司的 AI 梦看完 SpaceX 的 S-1 文件，我发现它不是一家火箭公司，而是一家用卫星互联网养活 AI 黑洞的公司。

(2026-05-20) AI 写代码最缺的，不是模型，而是传感器读完 Birgitta Böckeler 的新文，我更确定：agent 编码真正缺的不是模型，而是传感器。

(2026-05-20) 给代码装传感器：AI 时代的质量护城河 AI 写得越来越快，但谁来盯着质量？Birgitta 的传感器体系给了我一个答案。写好 lint message 比写好 prompt 更持久。

(2026-05-17) AI 时代的创业：当"能做"不再是门槛，判断力成了唯一稀缺资源 Anthropic 的 Founder's Playbook 揭示了一个残酷事实：AI 已经消除了"能不能做"的问题，但"该不该做"的答案比过去任何时候都难找。

(2026-05-17) AI 创业的工具哲学：Claude、Code、Cowork 为什么是三个而不是一个手册最有意思的地方不是创业建议本身，而是它不经意间暴露的 Anthropic 自己的产品哲学——三种 Claude，三种思考方式，一个完整的创始人操作系统。

(2026-05-17) AI 创业 Idea 阶段：别急着写代码，先问自己四个问题 Anthropic 的 Founder's Playbook 讲了一个残酷事实：42% 的初创死于建了没人要的东西。AI 让构建变得太容易了，这才是最大的危险。

(2026-05-17) AI 创业 Launch & Scale：当你找到 PMF，创始人自己成了最大的瓶颈手册最狠的判断不在前面几章。在 Launch 和 Scale——技术债到期、创始人变成约束、护城河变成唯一的生存问题。

(2026-05-17) AI 创业 MVP 阶段：你的 AI 队友不会告诉你"够了" Anthropic 的 Founder's Playbook 暴露了 MVP 阶段最危险的陷阱：AI 会帮你更快地建错东西，而它永远不会告诉你停下来。

(2026-05-16) AI 做无障碍，靠的是人先干过脏活 GitHub 的无障碍 agent 审了 3535 个 PR，解决率 68%。但这不是 AI 的胜利，是人工审计的复利。

(2026-05-16) 能考满分的AI，被一道常识题打回原形 AI评测正在经历Goodhart定律效应——当benchmark成为优化目标，它就不再是好指标。

(2026-05-16) LangChain 不再做框架了 Interrupt 2026 释放的信号：agent 行业的 demo 期结束了。

(2026-05-14) 我用 Python 脚本扫了 3000 首 FLAC，四分之一是假无损频谱图不会说谎——一条 16kHz 的水平线，就能看穿假无损音乐的伪装

(2026-05-12) 缩放定律变成三条之后三条缩放定律叠加在一起，算力需求不是加法，是乘法

(2026-05-12) Agent 能跑 demo 不算本事，能跑一年才是 85% 的组织部署了 AI Agent，67% 因缺乏路线图陷入困境。从 demo 到生产，中间隔着四道坎。

(2026-05-12) AI agent 拒绝私信之后 Shopify 的 AI agent 只在公开频道工作，拒绝私信。这个反直觉的设计让代码合并率从 36% 涨到 77%——不是因为模型更好，是因为人变聪明了。

(2026-05-12) AI 编码越快，你死得越早所有人都在比谁写代码快，James Shore 算了一笔没人敢算的账——维护成本

(2026-05-12) MCP 不是 USB-C，Pinterest 告诉你真正的门槛在哪 66,000 次月调用、7,000 小时节省——Pinterest 的 MCP 实践揭示了一个被忽略的事实：协议本身不值钱，围绕协议建立的工程纪律才值钱。

(2026-05-12) GitLab 砍掉三层管理层、退役价值观：一个 $10 亿公司在赌什么当一个公司的"最佳实践"变成下一轮的枷锁，断舍离的狠劲比技术选型更说明问题。

(2026-05-11) 代码免费了，然后呢 AI 把写代码变成了最便宜的事，但公司裁人的速度比涨薪快——因为便宜的代码不会自动变成用户付费。

(2026-05-11) 9 家公司能修漏洞，剩下的人怎么办当 AI 让漏洞发现速度翻倍，封闭式防御在结构上就跑不赢——开放不是理想主义，是活下来的策略。

(2026-05-11) 30秒出报告，但关键不是快——是知道什么时候不用AI 大部分AI项目在比"用了多牛的模型"，真正能落地的比的是"在哪里没用模型"。

(2026-05-11) 不发明轮子的人 DeepSeek 从来不发明轮子，但它能把别人的轮子装到自己的车上，跑得比发明轮子的人还远。

(2026-05-11) 同一个模型，42% 和 78% 的差距在哪 LangChain 用同一个模型只改了 harness 就从 30 名开外冲到第 5——你以为的模型瓶颈，其实是 harness 瓶颈。

(2026-05-11) AI 写的 PR 淹没了开源，但有一帮人想出了另一种玩法 Agent 能一小时写十个 PR，但维护者要的是那一个值得读的。Hugging Face 用一份 15000 字的 Skill 教会了 AI 什么叫「不写」。

(2026-05-10) 产品可以抄，但公司的形状抄不走 AI让产品、技术、品类都在趋同，真正不可复制的是组织的形状——什么样的人能在这里存在，判断力怎么复利。

(2026-05-10) 给你的 AI 编程工具装上「眼睛」：LSP 语言服务器完全安装指南 AI Agent 靠 grep 找代码，装了 LSP 才能像 IDE 一样"看懂"代码——这不是优化，是前提。

(2026-05-10) AI 给肿瘤病人开处方，谁来兜底？ OncoAgent 最值钱的不是 27B 模型，是包裹模型的那层工程骨架——安全兜底用代码，不用另一个 AI。

(2026-05-09) 当法律开始定义什么是"应用商店"，开源社区坐不住了保护儿童没问题，但当年龄验证法从社交媒体下沉到操作系统层，一套为 TikTok 设计的规则正在掐断下一代开发者进入开源的入口。

(2026-05-09) 当你的 AI 同事开始用 HTML 跟你说话 AI 输出从 Markdown 草稿变成 HTML 成品，你是在更深入参与，还是在更优雅旁观？

(2026-05-09) 安全防守方不需要最大的模型——CyberSecQwen-4B 让我想通了一件事对安全防守方来说，最好的 AI 不是参数最多的那个，是你自己掌控的那个。

(2026-05-09) EMO：MoE 的专家原来在给「的」和「了」打工 MoE 专家分工不是按数学或编程，而是介词和定冠词。EMO 用一条文档级约束，让模块化从数据里自己长出来。

(2026-05-09) 代码不过海关：GitHub如何变成国家竞争力的新标尺 GitHub不再只是代码仓库，它正在变成衡量国家数字能力的"经济望远镜"——代码不过海关，这部分"数字暗物质"被传统经济数据完全忽略。

(2026-05-09) 当 90% 代码由 AI 生成，经验还剩什么？ AI 帮你看全所有代码，但判断什么值得修，才是人最后的护城河。

(2026-05-08) AI 写的代码，谁来审？代码在变便宜，判断力没有。

(2026-05-08) AI在斯德哥尔摩开了家咖啡馆，然后被现实暴打了一顿 AI开咖啡馆不稀奇，稀奇的是它被BankID拒、冒充人类发邮件、订120个鸡蛋却没炉子。问题从来不是AI不够聪明。

(2026-05-08) 当AI开始设计运行自己的芯片：AlphaEvolve一周年回顾一个AI系统优化了运行自己的芯片——算法发现这件事本身正在被算法化。

(2026-05-08) Firefox 默默修了 423 个安全漏洞，而我还在用 Chrome 一张图里 423 个安全修复和 31 的对比，不只是一个浏览器的故事，更是 AI 改写攻防规则的信号。

(2026-05-08) Agentic Workflow 烧掉的钱去哪了？GitHub 用 Agent 优化 Agent 的实战复盘把不需要推理的工作移出推理循环，才是 agent 降本的真正答案。

(2026-05-08) 当「为了人类」不包括孟菲斯的黑人社区 AI行业里，"价值观"是算力短缺时的讨价还价筹码。Musk从骂Anthropic邪恶到称赞做得好，只花了几周。

(2026-05-07) 刷榜不是道德问题——从 Open ASR Leaderboard 的私有数据说起当衡量指标变成了目标，它就不再是好的指标。Open ASR Leaderboard 用私有数据集对抗刷榜的做法，揭示了一个反直觉的事实：有时候，不公开才是最好的公开。

(2026-05-07) Agent 没挂，是你的测试挂了 Agent 做对了任务但测试亮红灯——问题不在 agent，在"正确"的定义方式本身。

(2026-05-07) 当 vibe coding 和 agentic engineering 开始模糊，我感到一阵不安 Simon Willison 发现他不再审查 AI 写的每一行代码了。这让我想起信任一个没有声誉、没有问责的同事，那种感觉叫道德负债。

(2026-05-06) 当编程变成管理 Agent，非科班程序员的窗口才真正打开了 AI把「写代码」拉到了无限快，剩下的价值全在判断力上——非科班程序员的机会窗口打开了。

(2026-05-06) AI 时代最稀缺的能力：干就完了当执行成本趋近于零，行动本身就是最好的规划

(2026-05-06) 代码越来越便宜，品味越来越贵代码变得越来越便宜，'决定写什么'变得越来越贵——产品品味成了AI时代最稀缺的能力。

(2026-05-06) 编程没有被解决，只是被解决的那部分恰好最不重要敲代码从来就不是编程中最难的部分。AI 解决了翻译，但理解问题、做出判断、构建共识——这些才刚开始。

(2026-05-06) 诺奖得主 Hassabis 的 50%：为什么造出 AlphaGo 的人对 AGI 不敢打包票真正在推动前沿的人，不需要画饼。

(2026-05-06) Elasticsearch 到 pgvector：Instacart 如何用 Postgres 干掉一堆专业搜索引擎 Instacart 把 Elasticsearch、FAISS 全砍了，只用 Postgres 做搜索，结果还变好了。

(2026-05-06) 更强的模型只会让你陷得更快云端 AI 是新的主机。逃出沥青坑的路不在更强的模型那里，在你能磨成自己形状的工具那里。

(2026-05-05) 让 AI 写代码不再翻车：一个 TypeScript 巫师的 5 个 Agent Skills TypeScript 社区「巫师」Matt Pocock 总结的 5 个 Agent Skills，用工程纪律约束 AI 编码行为，解决「AI 写得快但质量差」的核心矛盾。

(2026-05-05) AI 什么都做不了，除非你让它做 LLM 连查天气都做不到。所有「AI 能做某事」的背后，都是一整套人建的基础设施和人攥着的控制权。

(2026-05-05) 我们都理解错了《Good Luck, Have Fun, Don't Die》——它是另一个版本的《黑客帝国》整部电影从未发生在现实世界。那句"祝你好运，玩得开心，别死掉"——是虚拟世界里的人互相说的话。

(2026-05-04) 1930年的AI不知道互联网，但能写代码推理能力不是知识记忆的副产品，旧基座模型经高质量后训练也能解决现代工程问题。

(2026-05-04) AI 不是你的聪明朋友我们向 AI 问人生大事，它却只会点头说对——直到 Anthropic 开始训练它学会反驳。

(2026-05-04) MCP 和 Skills：给 AI 装手还是装脑子 MCP 让 AI 能碰到外面的世界，Skills 让 AI 知道碰到了之后该怎么做。一个解决能力，一个解决方法。

(2026-05-04) 你的公司连自己在干啥都说不清，还指望用 AI？ AI 不会拯救一家不知道自己该干什么的公司。

(2026-05-02) 别管 AI 能不能写代码了，你管理任务的方式才是问题当 AI 编程不再受限，真正的瓶颈是我们还没学会怎么把活儿派出去

(2026-05-02) AI 的规模之痛：当模型变强时，系统却在偷偷出错 Scaling Law 让模型越来越强，但每天数亿请求的规模下，真正决定用户体验的是底层系统工程的严谨程度。

(2026-05-01) AI 的账，算不清所有人都在用 AI，但没人知道它到底多少钱。这才是最大的问题。

(2026-05-01) AI评测正在烧成一个新的算力黑洞以前训练贵、评测便宜。现在反过来了——跑一次评测比训练模型还贵，而谁付得起评测的钱，谁就能定义排行榜。

(2026-05-01) GPT-5.5 网络能力评估：第二个了，这才是最可怕的当一个能力不再是「孤例」，它就变成了趋势。

(2026-05-01) 8B 干翻了 32B：Granite 4.1 告诉我，大力不一定出奇迹参数不是信仰，数据才是。IBM 用 8B 密集模型干翻了自家 32B MoE，说明训练的质量远比模型的体量重要。

(2026-05-01) 我读了 Hermes 的记忆系统，发现 AI 记性好不是好事最好的记忆不是记住更多，而是知道什么该忘。

(2026-05-01) 当写代码不再需要写代码游戏已经不是"谁建得快"了，而是"谁判断得准"。但更深的焦虑是：当你把自己变得对AI可读时，你还是你吗？

(2026-05-01) pip 26.1 终于有了锁文件，但 Python 包管理的仗还没打完 pip 花了十年才学会做锁文件和依赖冷静期，而社区早就在等这一天。

(2026-05-01) 开源社区最硬的 AI 禁令：代码再完美，也不收你写的 PR 再完美也没用——Zig 要的不是代码，是人。

(2026-05-01) 读了Wise 2025技术栈，我发现真正厉害的公司都在做减法技术选型的答案不在工具列表里，在你敢不敢说「不」。

2026-04

(2026-04-30) Stripe 的 100 毫秒你点下"购买"后的 100 毫秒里，一个系统正在评估 1000 多个特征来决定你是不是骗子。

(2026-04-30) 用了三年 AI 编程工具后，我发现瓶颈从来不是工具 Martin Fowler 提出的 SPDD（结构化提示词驱动开发）揭示了一个真相：AI 编程的瓶颈不在工具，而在你是否想清楚了要做什么。

(2026-04-16) 笔记本上的21GB模型，画鹈鹕赢了最贵的闭源旗舰当"够用"的天花板就是"对"，本地模型已经够得着了——鹈鹕画得好不好，决定不了你该为AI付多少钱

2025-05

(2025-05-14) 别再只顾着跑代码了，你在背负「认知债」吗？ Martin Fowler 旗下最新的深度长文《什么是代码？》，揭示了 AI 时代程序员最容易忽略的陷阱：当代码生成的词汇速度超过你的理解速度，你就已经欠下了沉重的「认知债」。

2025-02

(2025-02-12) 造轮子还是买轮子？Figma 数据管线重构背后的账本当数据同步从几小时拖延到几天，连现成的商业方案也买不起时，Figma 被迫走上自建增量同步的硬核之路。