[图片] 4 种约束类型、19 个约束维度、4 种约束组合方式。 在现实的大语言模型应用场景中,几乎所有任务都会被定义为指令遵循的形式。近年来,随着大语言模型(LLM)能力的持续提升,人们逐渐不再满足于使用简单、直接的指令让模型完成机器翻译、文本分类等单一任务,而是通过对模型输出施加各种类型的约束,使其适配于更为复杂的现实任务,如角色扮演和 LLM-as-Agent。因此,如何准确评价大语言模型对于包含各种类型约束的复杂指令的遵循能力,已成为一个日益重要的问题。 然而,当前的复杂指令遵循评测基准,如 C...【查看原文】