当前位置:首页|资讯|GPT-4|复旦

基于《教父》小说角色,科学家探索GPT-4决策能力,提升大模型个性化能力

作者:DeepTech深科技发布时间:2024-07-07

自从大模型面世以来,复旦大学硕士生徐锐和所在团队便一直致力于研究个性化大模型和角色化大模型。

图 | 徐锐(来源:徐锐)

其中,他们把角色化大模型分为三类:

第一类叫 demographic persona,即那种能够代表某一类人群的大模型,比如医生、棒球爱好者、糖尿病患者等。

第二类叫 character persona,即那种基于已经“建立好”的著名角色或著名人物的大模型,比如基于哈利波特、蝙蝠侠、马斯克等人物。

第三类叫 individual persona,即通过个人数据去为用户建模一个数字分身或个人助手,从而完成各种下游任务。大家熟悉的 Siri 和 App 推荐系统便属于这一类。

此前,关于个性化大模型和角色化大模型的研究还处于初级阶段。很多工作往往是构建一个角色对话机器人,或者使用大模型替代传统推荐系统中的组件。

但是,对于个性化大模型和角色化大模型来说,一方面需要一个更可靠的基准,另一方面需要将角色化大模型和个性化任务联合起来。

此前针对角色大模型的评估,大多通过一些角色的语气、知识和心理学人格开展评估,这种评估实际上是是一种“复制”而非“预测”,即只是复制角色之前的行为,而非预测新的行为。

对于“预测”来说,需要针对过去数据进行整体建模,并根据当前任务进行推理。

因此,该团队希望大模型在学习个人数据之后,即学习角色的历史上下文之后,可以帮助用户制定各种决策,从而让大模型成为更好的个人助手。

而决策——最能体现大模型的个性化能力。决策,既是人类活动的基石,也贯穿着人类生命的始终。决策,也是一个极度个性化的行为。

在人类生活中,每天都会出现海量的决策。每个人都是复杂的个体,能够决定一个人做出决策的因素也有许多。

人类在制定一项决策时候,不仅需要考虑很多因素,所需推理的链条也很长。

因此要想完成本次研究,该团队首先需要制定一个优质的基准,以用于评估角色化大模型。

最初,他们考虑使用真人数据,但是由于隐私的原因,很少有真人数据能够同时满足可解释、上下文较长、问题具有代表性与挑战性等特征。

因此,他们选择使用小说数据和剧本数据作为数据来源。在优质的小说中,主角的决策往往能够反映人物性格和人物历史。

在美国作家马里奥·普佐(Mario Puzo)的小说《教父》中,迈克·柯里昂(Michael Corleone)这一角色曾做过一个非常重要的决策。

即在他的父亲被刺杀、家族乱作一团时,迈克针对毒枭维吉尔·索拉索(Virgil Sollozzo)和纽约警长开展复仇。

这个决策既符合迈克冷静、勇敢、具有成为下一代教父潜质的个性,也和小说中迈克的历史数据息息相关。

例如,在毒枭索拉索想去医院杀死重病的教父时,迈克及时赶到并机智地化解了这一危机。

在这件事中,迈克发现他拿枪的手甚至没有抖动,这深化了他的个人特质,也为后续的决策埋下了伏笔。

基于此,研究人员认为这类数据非常优质,能够用于大模型模拟人类决策的评估。

通过一些文学网站的分析,课题组找到了这些决策数据发生的结点。

然后,将结点之前的数据喂给大模型,借此让大模型(GPT-4)还原角色的选择。

为了让结果能够得到更好量化,他们把大模型的决策设计成了选择题的形式,并将其中的错误选项都设置得具有误导性。

期间,该团队遇到了数据泄露的难题,即大模型可能已经记住了相关决策。

为了缓解这一现象,他们开始选择偏冷门、但是评分较高的小说。同时,针对数据进行清洗,包括替换大量的实体名,删除可能透露信息的句子,从而解决了这一难题。

日前,相关论文以《角色就是命运:大型语言模型能模拟角色扮演中由角色驱动的决策吗?》(Character is Destiny: Can Large Language Models Simulate Persona-Driven Decisions in Role-Playing?)为题发在 arXiv[1]。

图 | 相关论文(来源:arXiv)

研究人员表示对于大模型来说,其最重要的应用便是能够实现个性化。

所谓个性化的大模型,指的是能够通过大量的多模态个人数据,建模一个人的数字分身,继而完成各种复杂的下游任务。决策,正是其中最重要、最复杂的一种个性化任务。

而上面提到的个人数据,可能是一个人在不同 App 的浏览数据和发布数据,也可能是在各种浏览器中的浏览数据,可能是用户和大模型的交流数据,甚至可能是用户在真实世界与虚拟世界的交互数据。

基于这些数据,大模型能为用户建模一个数字分身或语言模型助手,从而代替人类去执行各种下游任务,例如为用户打造一个推荐系统。

这种推荐系统具备冷启动、强推理的特点,不需要用户刷很久的 App,才能拥有“很懂你”的推荐系统,而是直接通过用户的语言模型分身就能完成个性化推荐。

而在下一步,研究人员将把目光转向真人决策,他们会利用跨领域的个人推荐数据和一些意见领袖(KOL,Key Opinion Leader)的数据作为数据源,因为这些数据更加稀疏,与真实世界相关的数据也更加复杂。

此外,他们还希望进一步加强数据的因果性,建立更加可解释的推理链条,从而更好地分析影响大模型做出决策的各项因素。

参考资料

1.https://arxiv.org/pdf/2404.12138

排版:刘雅坤


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1