SevthLin
林叁柒
于无声处听惊雷,于无色处见繁花。
Vibe Coder · 随便写写
3 篇内容 2 个栏目 更新于 05-08
最新发布
Agent 的行为边界,藏在那些"看起来没问题"的小改动里
从 Claude Code 4 月 23 日的问题复盘报告出发,聊聊为什么 Agent 产品里每一处动到模型链路的改动——哪怕只是 prompt 里多一句'少说点'——都应该配上分层评测。
最近看了 Anthropic 在 4 月 23 日发布的关于 Claude Code 质量问题的复盘报告(原文地址(https://www.anthropic.com/engineering/april-23-postmortem)),所以从此出发,聊一下我的一些关于 Agent 方面的经验。 其实把 Claude Code 的这几处改动单独拎出来,感觉每一项都还挺合理的: - 默认推理强度从 high 调成 medium,能降成本、降延迟,eval 分数下降也没超出波动范围; - 空闲会话恢复后清理旧的 thinking,因为缓存已经失效,全部塞回上下文请求会有一堆没命中缓存的贵 token; - 工具调用之间限制输出长度,减少模型啰嗦、加快响应、让界面更干净。 这些改动要是放到普通聊天对话的模型上,大概率只…
阅读全文 →