SevthLin
林叁柒
把线索留在纸面,把判断交给时间。
Vibe Coder · 随便写写
3 篇内容 2 个栏目 更新于 05-10
最新发布
Agent 产品的“牵一发而动全身”——改动必须配备评测
从 Claude Code 4 月 23 日的问题复盘报告出发,聊聊为什么 Agent 产品里每一处动到模型链路的改动(哪怕只是 prompt 里多加一个“字符”)都应该进行一轮完整的评测。
最近看了 Anthropic 在 4 月 23 日发布的关于 Claude Code 质量问题的复盘报告(原文地址(https://www.anthropic.com/engineering/april-23-postmortem)),所以从此出发,聊一下我的一些关于 Agent 方面的经验。 其实把 Claude Code 的这几处改动单独拎出来,是会感觉到每一项都还挺合理的: - 默认推理强度从 high 调成 medium,能降成本、降延迟,eval 分数下降也没超出波动范围; - 空闲会话恢复后清理旧的 thinking,因为缓存已经失效,全部塞回上下文请求会有一堆没命中缓存的贵 token; - 工具调用之间限制输出长度,减少模型啰嗦、加快响应、让界面更干净。 这些改动要是放到普通聊天对话的模型上,大…
阅读全文 →