何时使用本场景
"代码生成"是这样一族工作负载的便利总称:输入上下文很重(整个文件、周围函数、有时整个目录),输出适中(一个函数、一次重构、一个 30 行的补丁)。延迟需求差异大——IDE 内联补全要求亚秒首 token;PR 评审和夜间重构任务则是批量量级。它们共有的形态是:错误输出的代价远超昂贵 token 的代价。
一次幻觉的 import 在生产代码里要花工程师 20 分钟调试,绕过评审就更久。按 15 万美金/年的全成本工程师算,每次不靠谱建议大约 $1.20。即便用前沿模型定价,发一千次补全才花 1 美金 token。在这里激进省钱反而是反向的经济学。
为什么推荐链是这个组合
主用:Claude 4.6 Sonnet。 Anthropic 的代码档位在 SWE-bench(真实仓库规模任务)排名第一,读代码很细致——猜之前会先问澄清问题,外科手术式编辑而不是重写整个文件,尊重既有代码风格。比 Flash 慢的首 token 是可接受的,因为另一个选择——更快但错的答案——更糟。
备用:Qwen 3 Coder。 开源权重,编码 benchmark 前沿档,通过推理服务商以约 Claude 30% 的价格使用。在 Claude 被限流或区域不可用时顶上;质量下降幅度足够小,多数用户在常规任务上感觉不到。
基线:GPT-5。 全面强,对已经在 OpenAI 工具链标准化的团队仍是安全默认。列在这里做成本对比——通常是 Claude 链路同 token 量的 30-60% 溢价。
常见踩坑
- 有专门的代码模型时用通用模型。 Qwen 3 Coder 和 Claude Sonnet 在代码任务上明显优于各自的通用版本。别只因为 "最聪明" 就默认 GPT-5。
- 优化 HumanEval 而非 SWE-bench。 HumanEval 现在每个前沿模型都接近满分(>90% pass@1)。仍能拉开差距的 benchmark 是 SWE-bench Verified——仓库规模、多文件、真实 GitHub issue。这里才有区分度。
- 过度压成本。 见开头那段。错误代码比昂贵 token 更贵。
- 忘了测试生成成本。 当你让模型"再写测试",输出 token 翻 3-5 倍。算预算要算链式任务,不是单次补全。
- 忽略缓存命中维度。 编码工作负载缓存命中率极高(IDE 一次会话里同一文件被反复传几十次)。提示缓存便宜的模型(Anthropic、OpenAI)有效领先就被进一步拉开。
上线前的质量基线
让候选链路跑 30 个任务的金标准集,覆盖:函数级补全、多文件重构、根据堆栈跟踪修 bug、生成测试、代码评审。打三个分:(a)能编译 + 测试通过,(b)保持既有风格,(c)被问时能解释取舍。任何主用 (a) 得分低于 85% 的链路直接淘汰——这大致是开发者信任崩溃、把助手禁用的阈值。
本场景不覆盖什么
文档生成(用 content-summarization);让另一个 AI 评审 AI 提的 PR 的递归工作流(属于 code-review 范畴);自然语言→SQL 翻译(输入形态差别大到 data-extraction 更接近)。