Code Execution(代码执行)

核心洞察:代码执行是使 Agentic Engineering 成为可能的决定性能力。

定义

Code Execution 是 Coding Agents 的核心能力:能够直接运行生成的代码,而非仅仅输出代码文本。

关键区分

没有 Code Execution,LLM 输出的内容价值有限。 有了 Code Execution,Agent 可以迭代出可验证工作的软件

为什么重要

传统 LLM 编程的局限

User → LLM → 代码文本 → 人类复制粘贴 → 人类运行测试 → 人类反馈

Coding Agent 的闭环

User → Agent → 代码 → 自动执行 → 测试结果 → 自动迭代
                    ↑                              ↓
                    ←←←← 反馈循环 ←←←←←←←←←←←←←←←←

能力层级

层级描述例子
Read读取代码库理解项目结构
Write生成代码创建新文件
Execute运行代码执行脚本、测试
Iterate基于结果改进测试失败 → 修复 → 再测试

与 Vibe Coding 的区别

维度Vibe CodingAgentic Engineering
代码质量原型级、未审查生产级、已验证
验证方式自动测试 + 运行验证
人类角色"忘记代码存在"验证者、迭代者

关键数据点

  • Code Execution 是 Agent 迭代出可验证工作软件的关键能力
  • Coding agents 工具包括 Claude Code、OpenAI Codex、Gemini CLI
  • Agent 的核心定义:循环调用工具达成目标
  • LLM 不会从过去的错误中学习,但 coding agents 可以通过更新指令和工具配置来学习

前提与局限性

  • 依赖前提:代码库可访问且可执行环境可用
  • 适用边界:适用于软件开发、脚本编写、测试验证等场景
  • 局限性:无法执行需要外部硬件或特殊环境的代码
  • 安全风险:自动执行代码可能引入安全漏洞,需要沙箱环境
  • 验证成本:人类仍需验证 Agent 产出的正确性和鲁棒性

关联概念


来源:Simon Willison, "What is agentic engineering?" (Agentic Engineering Patterns, 2026)