SevthLin
林叁柒
把线索留在纸面,把判断交给时间。
Vibe Coder · 随便写写
4 篇内容 2 个栏目 更新于 06-08
最新发布
让 AI 当裁判这件事——提示词怎么调试,能不能让它自己进化
用大模型给另一个模型的输出当裁判(LLM-Judge)时,判定提示词需要持续校准。借助 AI 协作已经能把单轮调试做得更稳,但一旦真正自动运行,过拟合评测集、无节制重写、成本失控、规则膨胀都会出现。本文借微软 SkillOpt 论文和开源工具的思路,聊聊如何把裁判提示词迭代设计成一套有约束、可验证、能持续滚动的流程。
最近做 LLM-Judge 的时候,最常遇到的情况是:模型对这批样本能够判对,但换一批样本又不稳定。 以前做测试,流程相对简单。返回值对不对、格式齐不齐、状态码是不是 200,写几行程序一跑就知道,对就是对,错就是错。 但换到大模型这边,麻烦就来了。“这段回答有没有跑题”“有没有胡编乱造”“逻辑链断没断”——这些问题写不出明确规则,你没法用 if-else 来判断“是否跑题”。 于是有了个办法:再找一个大模型来当裁判,让它读一遍输出,判断这次回答到底好不好。这就是 LLM-Judge(用大模型当裁判)。 但裁判也是模型,它自己也会看走眼。要把这个裁判调试到足够准、足够稳,关键在于持续校准那份判定提示词。本文想聊的有三件事:裁判提示词怎么一轮轮调试出来,调到后面会卡在哪,以及怎样把这套流程设计成可持续自动迭代的形…
阅读全文 →