由于GPT-4等模型不提供直接的概率分布访问,作者提出使用代理模型来估计这些闭源模型的置信度。研究重点在于模型的准确性和信心评估,涵盖了多个领域,包括数学推理、科学知识、计算机科学、社会科学和常识推理。通过结合语言置信度和代理模型概率,这种方法在12个数据集上提供了最佳的置信度估计,平均AUC达到84.6%。此外,研究还发现,即使是较弱的模型也能作为有效的代理模型,提供准确的置信度估计。
论文:https://arxiv.org/pdf/2311.08877.pdf
Readpaper:https://readpaper.com/paper/4822732593132732417
研究首先考察了从LLMs中获取语言置信度(直接用prompt提示引导LLMs)的概念,以评估它们对答案的信心。这种方法对于最先进的模型显示出合理的有效性,明显优于随机猜测的基线。然而,在一些准确度不高的模型,但是可以获取真实概率的情况下,比如llama2模型,还是有很多提升空间的。
所以他们提出了一种新颖的使用替代模型进行信心评估的方法。
这涉及从一个模型(如GPT-4或Claude-v1.3)获取答案,并从另一个提供softmax概率的模型(如Llama 2)获取信心分数。这种替代信心建模显著提高了GPT-4的平均选择性分类AUC至82.1%。
信心分数的可转移性:一个有趣的发现是,即使生成信心分数的模型不同或准确度较低,信心分数也可以在模型之间转移。这表明了替代模型方法的更广泛适用性。
结合语言和替代模型概率:研究发现,语言信心分数和替代模型概率是互补的。结合这些分数(称为“混合方法”)进一步提高了性能。对于GPT-4,这种方法将选择性分类AUC提高到了83.4%。这种混合方法还优于同时期的自洽性工作。
局限性和改进的分析:由于其粗粒度的性质,语言信心分数受到限制。例如,GPT-4经常对许多示例输出相同的信心分数(0.9),限制了其区分正确和错误答案的能力。即使应用于不同模型,替代模型概率也表现良好。将少量替代模型概率与语言信心混合,允许之前具有相同语言信心的答案通过不同的复合信心分数进行区分,从而以最小的干预提高了整体性能。
学术上,这项研究对于理解和提高大型语言模型的信心评估能力具有重要意义。它为未来的研究提供了一个新的视角,即通过代理模型来增强模型的自我评估能力,这可能会开启新的研究方向。
商业上,对模型的信心评估至关重要,尤其是在决策敏感的领域,如医疗诊断或金融分析。这项研究提供的方法可以帮助企业更准确地评估模型的可靠性。
特邀作者:日本早稻田大学计算机系博士生 王军杰