机器之心报道
编辑:赵阳
桌面角色扮演游戏是一类非常受欢迎的游戏,其中门槛最高的无疑是地下城主(DM)这一角色,DM需要设计宏大完备的剧情,处理意料之外的情况,好玩却也难玩。大模型凭借其杰出的文本处理能力,能否让人们更容易体验DM这一角色魅力呢?本文基于GPT-3和ChatGPT设计了三个用于协同的DM系统,称之为CALYPSO。实验结果表明该系统能够激发人类想象力,帮助人类更好地理解情况。
龙与地下城 (D&D)(Gygax 和 Arneson 于1974 年制作)是一款桌面角色扮演游戏 (TTRPG),还是一款多人协作类的故事游戏。一群玩家各自创建并扮演自己的角色,攻克由另一位玩家(被称为地下城主DM)创建的世界及设置的挑战。DM 既不是玩家也不是怪物,而是编写游戏总体情节的设计性角色。
作为一款协同创作的故事讲述游戏,《龙与地下城》为人工智能系统带来了不少关于与其进行智能交互的独特挑战。
在游戏过程中,游戏会在很长一段时间内(通常是数月到数年)进行多个副本任务,DM 和其他玩家基于常识推理和主题一致性的叙述共同进行创作。随着团队玩的时间越来越长,玩家会定义更多的世界以及与之互动的临时规则。为了做出符合角色的决策,每个玩家必须构建对他们从游戏历史中构建的游戏世界的个人理解,同时跟踪其他玩家及其角色所知道的信息。
通过使用「AI 协同 DM 工具」,DM 可以将更多的精力投入到认知要求较高的任务中,例如即兴与 NPC(非玩家角色)对话或修改计划中的战役剧本。此外,该工具将大大降低DM 的门槛。对于 D&D 社区来说,「AI协同DM 工具」可称作是无价之宝。
有效的「AI 协同 DM 工具」不仅应该为 DM 提供连贯且有效的文本信息,推动灵感的激发,而且还应考虑到大量的背景环境和内容的一致性要求,无论是在 D&D 规则内还是在给定的场景或战役内。GPT-3 和 ChatGPT等大型语言模型 (LLM),已经显示出其在生成连贯文本任务上的非凡能力。有些人甚至通过结构化信息来微调模型的方式,将 LLM应用于 D&D 对话和叙事任务当中。这些工作使用从用户数据中抓取的结构化信息微调单个模型来实现。
近日,宾夕法尼亚大学、马里兰大学的研究者使用 D&D 设定集中的现有数据,通过多个零样本prompting模型来改进生成结果。
研究者提出了一项研究:如何创建一个 LLM 增强工具来帮助 DM 玩 D&D?实践中,本文采用了以下方法:
1. 研究者先采访了几位 DM,了解他们如何消化游戏信息并了解该领域 AI 助手的设计动机;
2. 然后创造了一个具有规模空前的规则的游戏,并邀请了71名玩家参与对该游戏的研究;
3. 最后创建了一个由三个LLM驱动界面组成的系统,称之为CALYPSO(Lore and Yielding Plot Synthesis Objectives 协作助手),DM 和玩家可以在玩D&D 时使用它。在接下来的四个月里,研究者逐步研究 DM 和玩家是如何将该系统融入到创作过程中的。
随后,研究者证明语言模型是有能力的「协同工作-DM」。虽然不像人类玩家或DM 那样,但仍然是一个能够同步的、可以充当人类 DM 指南的智能体角色。研究者深入了解了 TTRPG 玩家希望如何使用这些工具,并提供了可扩展到D&D领域之外的经过验证的解决方案。研究表明,考虑到这些功能而设计的系统在创意作家社区中广受欢迎。
设计动机
为了更好地了解 DM 在游戏中查找参考资料时所面临的困难,在创建该系统之前,研究者对来自不同背景的 7 位 DM(以下称为 D1-D7)进行了采访并举办了研讨会。游戏参与者的 D&D(各种版本)游戏经验从 1 到 39 年不等。
在这些会议中,研究者会询问 DM 如何处理即兴遭遇事件——即动态生成的随机遭遇(通常在遭遇表上随机滚动)。在随机遭遇事件中,DM 没有时间事先研究怪物的统计数据和背景知识,也没有时间思考怪物为何会出现在特定环境中的背景故事。从这些采访中,他们确定了人工智能系统为决策者提供帮助的几种方式:
激发灵感
战略辅助
专题常识
内容简化
实现方案
本节将描述为向 DM 提供他们所需的帮助而开发的三个界面。这些界面的设计充分考虑到了「野外部署场景」:
1. 遭遇事件解读:使用 GPT-3 生成简洁的遭遇事件规则的零样本方法。
2. 头脑风暴:这是一种对话方法,DM 可以使用 ChatGPT 提出有关遭遇时间的其他问题或完善遭遇事件总结。
3. 开放式聊天:无需触发遭遇事件,就能使用 ChatGPT 进行对话。
这些实现的方案与其他人工智能驱动的协同智能体有两个不同之处。首先,与人工智能作为内容编辑的模型相比,本方案的人工智能生成的内容不能直接暴露给参与游戏的人。CALYPSO 只向 DM 提出建议,DM 对向玩家呈现的内容拥有最终决定权。其次,与有充足的时间进行内容迭代的协同写作智能体相比,本方案产生想法和进行解释之间的时间往往非常短。由于 DM 在运行真实游戏的过程中使用 CALYPSO,因此 CALYPSO 需要使用便捷,并且不会减慢游戏速度。
遭遇事件解读
研究者向 DM 提供的第一个界面是一个按钮,使用大型语言模型来提取已发布怪物统计数据集中可用的游戏统计数据和知识。为了实现这一目标,研究者使用 GPT-3(具体是 text-davinci-003 模型),其中包含所选遭遇的文本、遭遇发生环境的描述以及游戏遭遇中涉及的每个怪物的统计数据和背景知识。
研究者向LLM布置了总结怪物的能力、知识和环境的任务。在生成提取的信息后,通过让DM 选择正面或负面反馈按钮来收集反馈,还可以在应用内模式中留下评论。这种交互方式如下图 2 所示。
内容总结。首先,研究者对 GPT-3提出「总结以下 D&D 规则和怪物来作为 DM的 参考,但不要提及游戏统计数据」的要求,然后逐字粘贴设置和怪物信息的文本描述。解码时,使用的温度参数为 0.9,核采样率为 0.95,频率惩罚系数和存在惩罚系数为 1。
抽象理解。在理解任务中,研究者要求 GPT-3 执行更抽象的任务,以帮助 DM「理解」遭遇,同时提供明确的指示以关注场上每个存在的个体;要求GPT-3处理深化故事和常识中包含的信息;要求GPT-3阐释多个存在个体是如何相互作用的。在这些表述之后,研究者补充了与上面的总结任务相同的信息。最后,如果怪物没有产生书面描述,研究者会用指令来代替怪物的描述,告诉 CALYPSO 提供来自神话故事和常识的 DM 信息。解码时,使用的温度参数为0.8、核采样率为0.95, 频率惩罚系数为1。
头脑风暴
为了处理单轮信息提取不够的情况,或者 DM 有其他重点问题或想法需要帮助阐述的情况,研究者还提供了一个界面来打开一个专用线程以进行头脑风暴。在随机选择遭遇后的任何时间,系统提供与「遭遇事件解读」界面中相同的遭遇信息,作为 ChatGPT 的初始提示(即 gpt-3.5-turbo)。如果 DM 使用遭遇事件解读接口生成信息块,系统也会将其作为上下文信息进行提供(如下图 4所示)。解码时,使用的温度参数为1、核采样率为0.95, 频率惩罚系数为0.3。
开放式聊天
最后,研究者为所有玩家提供了一个开放式聊天界面,不需要触发遭遇也可以使用。由于该界面随时可用且开放,因此它有助于为 DM 使用人工智能聊天机器人提供基准。用户可以运行终端命令要访问该界面,该命令将启动一个新线程。
研究者要求 ChatGPT 扮演一个了解 D&D 的角色,并对以这种方式打开的线程中发送的每条消息生成回复。解码时,使用的温度参数为1、核采样率为0.95, 频率惩罚系数为0.3。与「头脑风暴」界面创建的私有线程不同,开放式对话线程是可以公开访问的,允许其他用户加入。
实验结果
遭遇事件解读
内容总结。DM 在 37 次遭遇事件中与系统进行了交互,系统帮助他们了解怪物和场景共计13次,但是有7次没有提供帮助。
抽象理解。总体而言,DM 更喜欢这种更抽象的任务:在 114 次遭遇中的互动中,DM 表示系统有55次帮助他们了解遭遇中的怪物和场景,但在 2 次遭遇中没有帮助。下图 3 显示了每个接口的反馈细节。
大模型幻觉带来的影响。研究者发现并非所有的大模型幻觉都是不受欢迎的。许多情况下,模型会建议怪物描述中明确写出的怪物未明确的行为或外观。当然,有的时候也会适得其反,例如有的模型会建议给生物按上翅膀。
DM 经常创造性地合成设定集中未包含的、但是却有意义的信息。如上所示,他们希望工具在某些时候能预测到一些场景并做出可复现的选择。虽然内容总结界面为了确保不会产生任何细节,会趋于保守,但抽象理解界面即使有轻微的幻觉也更受欢迎。由于DM充当模型输出的管理者,因此 DM 可以选择接受谁的建议。
头脑风暴
DM 总共在 71 次遭遇场景中使用了头脑风暴模型,总计 162 轮对话。决策者以多种不同的方式使用头脑风暴模型,研究者将其定性编码并列于下表 1 中。
开放式聊天
参与者在 51 个单独的线程中与 CALYPSO 聊天,总共包含 2,295 轮对话。与头脑风暴界面中与人工智能的对话相比,对话持续的时间要长得多(平均每次交互 45.0 轮,而头脑风暴界面为 2.3 轮)。由于没有时间压力,参与者会花更多时间玩模型并完善其响应非D&D游戏的内容,如生成任务创意(P3、P8、P12、P16)、设计角色和位置名称(P3,P9,P19,P22),角色扮演其他游戏中的某个角色(P3,P9,P12,P16),并撰写有关游戏中角色之间发生的事件的同人小说(P3,P8,P9,P16,P21)。
然而,在 D&D 游戏中,DM 没有足够的时间来进行几个小时的对话。如果没有 CALYPSO 对游戏的管理,DM 将不得不花费多次对话来复制和粘贴信息以将其提供给 LLM,注意力就无法集中到游戏,这样一来这个方案也就不合适了。
研究者认为,这凸显了同步系统和异步系统之间的差异,以及消除人工智能增强界面不合理设计的重要性。人类用户有能力向LLM提供额外的信息,但时间和计算负担应该由同步系统而非用户承担。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com