目录

关于 AI

记录对 AI、大模型和 Agent 产品的一些观察、思考与经验。

记录对 AI、大模型和 Agent 产品的一些观察、思考与经验。

内容多来自日常工作和使用中的积累——虽然说到底，大部分应用层，我感觉其实都是提示词的管理…

内容

让 AI 当裁判这件事——提示词怎么调试，能不能让它自己进化用大模型给另一个模型的输出当裁判（LLM-Judge）时，判定提示词需要持续校准。借助 AI 协作已经能把单轮调试做得更稳，但一旦真正自动运行，过拟合评测集、无节制重写、成本失控、规则膨胀都会出现。本文借微软 SkillOpt 论文和开源工具的思路，聊聊如何把裁判提示词迭代设计成一套有约束、可验证、能持续滚动的流程。 05-10

Agent 产品的“牵一发而动全身”——改动必须配备评测从 Claude Code 4 月 23 日的问题复盘报告出发，聊聊为什么 Agent 产品里每一处动到模型链路的改动（哪怕只是 prompt 里多加一个“字符”）都应该进行一轮完整的评测。