SevthLin

林叁柒

把线索留在纸面，把判断交给时间。

Vibe Coder · 随便写写

4 篇内容 2 个栏目更新于 06-08

最新发布

文章 2026-06-08

让 AI 当裁判这件事——提示词怎么调试，能不能让它自己进化

用大模型给另一个模型的输出当裁判（LLM-Judge）时，判定提示词需要持续校准。借助 AI 协作已经能把单轮调试做得更稳，但一旦真正自动运行，过拟合评测集、无节制重写、成本失控、规则膨胀都会出现。本文借微软 SkillOpt 论文和开源工具的思路，聊聊如何把裁判提示词迭代设计成一套有约束、可验证、能持续滚动的流程。

最近做 LLM-Judge 的时候，最常遇到的情况是：模型对这批样本能够判对，但换一批样本又不稳定。以前做测试，流程相对简单。返回值对不对、格式齐不齐、状态码是不是 200，写几行程序一跑就知道，对就是对，错就是错。但换到大模型这边，麻烦就来了。“这段回答有没有跑题”“有没有胡编乱造”“逻辑链断没断”——这些问题写不出明确规则，你没法用 if-else 来判断“是否跑题”。于是有了个办法：再找一个大模型来当裁判，让它读一遍输出，判断这次回答到底好不好。这就是 LLM-Judge（用大模型当裁判）。但裁判也是模型，它自己也会看走眼。要把这个裁判调试到足够准、足够稳，关键在于持续校准那份判定提示词。本文想聊的有三件事：裁判提示词怎么一轮轮调试出来，调到后面会卡在哪，以及怎样把这套流程设计成可持续自动迭代的形…

阅读全文 →