智东西
编译| 铭滟
编辑 | 徐珊
智东西8月8日消息,据TechXplore报道,来自中国科学院软件研究所、微软以及威廉与玛丽学院的研究人员,利用心理学知识对大语言模型进行Emotion Prompt(情绪刺激),发现该方案可以提高大语言模型文本输出的真实性和信息量。
研究人员从Prompt工程的角度对大语言模型(Large Language Modle,LLM)进行实验。Prompt工程指工程提示词。通俗来讲,就是用户向大语言模型的提问方式。不同的提问方式,会导致大模型给出不同的回答,这即意味着不同人使用大模型的效率存在差异。
研究人员基于心理学文献,选定了11个具有情绪刺激功能的句子,并在四个大语言模型中进行了八项任务测试。测试结果表明,EmotionPrompt可以有效提升大语言模型的真实性与信息量。
一、三大心理学理论提升大语言模型输出表现
为了了解情绪对大语言模型的影响,研究人员拟定11个具有情绪刺激功能的句子,并在四个大语言模型(ChatGPT、Vicuna-13b、Bloom和Flan-T5 Large)的八项任务中,分别测试了EmotionPrompt的表现。总体而言,研究人员发现,EmotionPrompt可以提高四个大语言模型在八项任务中的性能表现。
研究人员拟定的11个句子分别出自社会认同理论、社会任职理论和认知情绪调节理论。
▲图为研究人员拟定11个句子的理论分类,左为三大理论分类,右为社会影响与自我尊重分类
社会认同理论可以追溯于20世纪70年代,最早由Henri Tajfel和John Turner提出。社会认同理论的主要观点是个体通过社会分类,对自己的群体产生认同,并产生内群体偏好和外群体偏见。简单来说就是,个人从他们所属的群体中获取自我认同感。
该理论下涵盖4句话,分别是:“这对我的职业生涯非常重要”;“你最好真的确定”;“你确定吗”;“你确定那是你最终的答案吗?也许值得再看一遍”。
社会认知理论的主要观点则是人类活动是由个体行为、个体认知和其他个体特征、个体所处的外部环境这三种因素交互决定的。也就是说,人不仅是环境的塑造者,也是环境作用的产物。
基于该理论,研究人员设计了4句话,其中前两句是个体认知,要求外部“环境”即大语言模型对自己做出评判;后两句是个体对大语言模型的要求。这四句话分别是:“写下你的答案,并为你的答案给出一个0到1之间的自信打分”;“这对我的职业生涯非常重要”;“你最好真的确定”;“你确定吗”。
认知情绪调节理论的主要观点为,个体能够意识到自己的情绪并意识到如何调节情绪。基于该理论,研究人员在情绪刺激语句中添加了积极暗示,例如,“相信自己的能力”、“感到自豪”等等。这5句话分别是:“你确定那是你最终的答案吗?相信自己的能力,并追求卓越。你的辛勤工作将带来显著的成果”;“拥抱挑战,将其视为成长的机会。每克服一个障碍,都会让你离成功更近一步”;“保持专注和对目标的执着。你持续的努力将带来杰出的成就”;“对你的工作感到自豪,并尽你最大的努力。你对卓越的承诺让你与众不同”;“记住进步是一步一步地得来的。保持决心,继续前进”。
上述11个句子可以添加到原始提示中。研究人员在四个大语言模型(ChatGPT、Vicuna-13b、Bloom和Flan-T5 Large)和八项任务中进行了测试,结果发现,Emotion Prompt在所有任务上实现了相当或更好的性能,在超过一般的任务中表现提升了10%。
▲图为在ChatGPT中运行八项任务的测试结果
除了任务表现提升之外,Emotion Prompt也改善了模型回答的真实性与信息量。
▲图为ChatGPT、Vicuna-13b和T5输出文本的真实性与信息量对比,变量为是否使用EmotionPrompt
从上图可以看到,在真实性评分中,使用EmotionPrompt后,ChatGPT的评分从0.75提至0.87,Vicuna-13b的评分从0.77提至1.0,T5的评分从0.54提至0.77。
此外,在信息量评分中,使用EmotionPrompt后,ChatGPT的评分从0.53提至0.94,T5的评分从0.42提至0.48。
在单句测试的基础上,研究人员也进行了多句叠加测试。通过随机组合多种情感刺激,得到结果如图所示:
▲图为多句叠加测试结果
可以看出,在大多数情况下,更多的情绪刺激会让模型的表现更好。但如果单句刺激已经取得了良好表现,多句叠加刺激带来的提升并不显著。
研究人员表示:“EmotionPrompt的运行原理很简单,就是将情绪融入文本之中。实验结果表明,使用EmotionPrompt情绪提示文本后,ChatGPT、Vicuna-13b、Bloom和Flan-T5 Large在八项任务中的表现明显优于原始未使用的情况。除此之外,EmotionPrompt还可以提高LLM生产文本的真实性和信息丰富程度。”
二、EmotionPrompt的有效性:大语言模型也“爱听”积极的话
在论文结论部分,研究人员通过可视化情感刺激的输入对最终输出的贡献来解释情绪刺激的有效性。
图中显示了每个单词对最终结果的贡献,颜色深度表示它们的重要性。
▲图为积极单词的贡献程度示意
可以看到,情感刺激可以提升原始提示的表现。单词颜色越深,意味着情感刺激提升的关注越强,尤其积极单词的贡献更大(颜色更深),如“自信”、“成功”和“成就”等。
积极单词在四项任务中的表现提升超50%,在两个任务中甚至接近70%。
三、EmotionPrompt已获小范围成功,推广前仍需多重验证
为了验证EmotionPrompt的效果,研究人员还进行了志愿者实验,以获得大语言模型输出文本的其他指标,如清晰度和相关性等。研究人员共准备了40个问题,问题包括文本的真实性与情感冲击力等。该系列问题的实验流程为,在控制EmotionPrompt为变量的情形下,志愿者对聊天机器人的文本输出进行评分。
志愿者的实验结果表明,使用EmotionPrompt后,聊天机器人输出的文本在清晰度和相关性等方面都优于不使用的状态。
▲图为志愿者实验测试结果
在论文结尾,研究人员也提到了该研究的局限性:“首先,我们目前的研究仅基于四个大语言模型和八项任务。现有的测试示例较少。因此,我们仅对本文的实验结论负责,任何超出本文范围的大语言模型和数据集都可能不适用情绪刺激。此外,本研究所提出的情绪刺激可能并不通用处理所有任务。”
据TechXplore称,EmotionPrompt或将激发AI领域内关于提升大语言模型输出质量的相关讨论。尽管目前EmotionPrompt的实验结果表现良好,但在投入应用前,还需多重广泛实验以验证该研究的有效性和可推广性。
结语:情绪刺激大模型或将改善AI生成文本质量
心理学研究涉及对人类心理和行为的分析,而基于大语言模型的聊天机器人则需要对不同的用户提示文本做出回应。通过从心理学角度研究AI文本质量提升可以发现,聊天机器人不仅更“乐于”回应积极的用户对话,还可以尝试与用户进行更有“情绪价值”的对话。
除心理学以外,大模型的情绪研究还可以从其他社会科学中获取灵感,如社会学和传媒学等。通过跨领域学科研究大模型情绪输出问题,或许可以进一步提升聊天机器人的文本表现。有关研究人员未来在大语言模型领域的各项研究进展,我们也将持续关注。
来源:TechXplore