近年来,自动摘要技术取得了显著的进步,尤其是使用大型语言模型进行零样本提示,例如 GPT-4。但摘要的信息密度常常被忽视。理论上,摘要应该比源文更密集,即包含更多的信息。为了解决这个问题,Salesforce 和 MIT 的研究者进行了一项研究,通过征求人类对 GPT-4 生成的一系列摘要的偏好来确定最佳的信息密度。
研究者开发了一种基于提示的迭代方法 (CoD),使摘要的实体密度逐渐增加。他们对 CNN/《每日邮报》的文章进行了人工和自动评估,以更好地了解信息量和清晰度之间的权衡。结果显示,人类更喜欢与人类编写的摘要几乎一样密集的摘要,而这些摘要比普通 GPT-4 提示生成的摘要更密集。
此外,研究者还对 CoD 摘要进行了定性分析,发现摘要的连贯性/可读性与信息量之间存在明显的权衡。总的来说,这项研究为提高大型语言模型的表达能力提供了有价值的启示。
文章的影响力:
商业上: 提高摘要的信息密度对于商业应用来说是非常有价值的。例如,新闻机构和内容提供者可以使用这种技术来生成更精炼、信息量更大的摘要,从而吸引更多的读者。此外,对于需要实时应用的场景,如金融新闻或紧急通知。
学术上: 这项研究为自动摘要技术提供了新的研究方向。通过探讨如何提高摘要的信息密度,研究者为其他学者提供了一个新的研究框架。此外,该研究还开源了 GPT-4 摘要、注释和一组 5000 篇未注释的 CoD 摘要,这为后续的研究提供了宝贵的数据资源。
论文地址:https://readpaper.com/paper/4798755580713893889
数据集:https://huggingface.co/datasets/griffin/chain_of_density
特邀作者:早稻田大学计算机系在读博士 王军杰