关于 AI
记录对 AI、大模型和 Agent 产品的一些观察、思考与经验。
记录对 AI、大模型和 Agent 产品的一些观察、思考与经验。
内容多来自日常工作和使用中的积累——虽然说到底,大部分应用层,我感觉其实都是提示词的管理…
内容
06-08
让 AI 当裁判这件事——提示词怎么调试,能不能让它自己进化 用大模型给另一个模型的输出当裁判(LLM-Judge)时,判定提示词需要持续校准。借助 AI 协作已经能把单轮调试做得更稳,但一旦真正自动运行,过拟合评测集、无节制重写、成本失控、规则膨胀都会出现。本文借微软 SkillOpt 论文和开源工具的思路,聊聊如何把裁判提示词迭代设计成一套有约束、可验证、能持续滚动的流程。 05-10
Agent 产品的“牵一发而动全身”——改动必须配备评测 从 Claude Code 4 月 23 日的问题复盘报告出发,聊聊为什么 Agent 产品里每一处动到模型链路的改动(哪怕只是 prompt 里多加一个“字符”)都应该进行一轮完整的评测。
让 AI 当裁判这件事——提示词怎么调试,能不能让它自己进化 用大模型给另一个模型的输出当裁判(LLM-Judge)时,判定提示词需要持续校准。借助 AI 协作已经能把单轮调试做得更稳,但一旦真正自动运行,过拟合评测集、无节制重写、成本失控、规则膨胀都会出现。本文借微软 SkillOpt 论文和开源工具的思路,聊聊如何把裁判提示词迭代设计成一套有约束、可验证、能持续滚动的流程。 05-10
Agent 产品的“牵一发而动全身”——改动必须配备评测 从 Claude Code 4 月 23 日的问题复盘报告出发,聊聊为什么 Agent 产品里每一处动到模型链路的改动(哪怕只是 prompt 里多加一个“字符”)都应该进行一轮完整的评测。