SevthLin

林叁柒

把线索留在纸面,把判断交给时间。

Vibe Coder · 随便写写

4 篇内容 2 个栏目 更新于 06-08

最新发布

文章

让 AI 当裁判这件事——提示词怎么调试,能不能让它自己进化

用大模型给另一个模型的输出当裁判(LLM-Judge)时,判定提示词需要持续校准。借助 AI 协作已经能把单轮调试做得更稳,但一旦真正自动运行,过拟合评测集、无节制重写、成本失控、规则膨胀都会出现。本文借微软 SkillOpt 的思路,聊聊如何把裁判提示词迭代设计成一套有约束、可验证、能持续滚动的流程。

最近做 LLM-Judge 的时候,最容易遇到的不是“模型完全不会判”,而是“它有时候判得很像那么回事,但换一批样本又不稳定”。 以前做评测,流程相对简单。返回值对不对、格式齐不齐、状态码是不是 200,写几行程序一跑就知道,对就是对,错就是错。 换到大模型这边,麻烦就来了。“这段回答有没有跑题”“有没有胡编乱造”“逻辑链断没断”——这些问题写不出明确规则。你没法用 if-else 框住“跑题”两个字。 于是有了个办法:再找一个大模型来当裁判,让它读一遍输出,判断这次回答到底好不好。这就是 LLM-Judge(用大模型当裁判)。 但裁判也是模型,它自己也会看走眼。要把这个裁判调试到足够准、足够稳,关键在于持续校准那份判定提示词。本文想聊三件事:裁判提示词怎么一轮轮调试出来,调到后面会卡在哪,以及怎样把这套流程设…

阅读全文 →