GPT-4肆虐「谁是卧底」桌游，交谈逼真，类人属性仍有发展空间

作者：新智元发布时间：2023-10-16

GPT-4

【导读】最近，韩国一团队为了测试GPT-3.5和GPT-4的类人属性，竟然让它们玩儿这款游戏！

生成式AI研究再整新活！

韩国团队尝试让GPT玩儿游戏，还是个黑帮题材的游戏——「Spyfall」。

不熟悉这个游戏的朋友先来了解一下，下图就是「Spyfall」的画风。

实际上这是个桌游，属于老少咸宜，很适合朋友聚会的那种热场游戏。

游戏的主要进行方式就是「说话」。

玩家中会有一位扮演「间谍」，所有玩家抽取一张牌，其中有一张间谍牌，剩余玩家抽到的都是相同的地点牌。

间谍的目标，就是通过交谈找出剩下玩家所在的地点，而其余玩家就是要判断谁是间谍。

游戏总共进行8分钟，玩家之间可以相互提问。8分钟一到，所有玩家要一同投票。

是不是很像平时我们聚会玩儿的谁是卧底？唯一不同在于，谁是卧底的词汇可能来自各个领域，而这款游戏只有地点类名词，比如球场、剧院、教室等等。

好了，游戏规则搞明白，下一步就是要让GPT来玩玩看了。

研究结果

研究团队表示，在实验过程中，将会特别关注GPT在角色扮演中的表现，本研究旨在展示GPT在具体游戏场景中的理解、决策和互动的能力以及潜力。

从结果粗看，GPT-4与GPT-3.5-turbo的对比分析表明，GPT-4增强了对游戏环境的适应性，在提出相关问题和形成类似人类的反应方面有显著改进。

然而，也并非全是优点。比如说，GPT-4在虚张声势（Bluff）和预测对手行动方面存在一定的局限性，尤其是没扮演间谍的时候。

研究结果表明，虽然GPT-4与之前的版本相比取得了不错的进步，但还是有进一步发展的潜力，特别是在向AI灌输更多「类人」属性的方面。

不过，实验还是成功表明，生成式AI在模拟类人互动方面大有可为。从GPT-2到GPT-4，模型的决策能力、可解释性和解决问题的能力都有了长足的进步。

未来的努力方向，就是上面提到的「类人」属性，使GPT更具通用性和广泛性。

研究方法

首先，我们知道，GPT模型最大的优势就在于，用户可以通过自然语言和其进行直观的交互，无论用户本人是否对技术的内核熟悉。

当然，几乎所有的模型交互都是通过自然语言进行的，用户可以用自己最熟悉的方式表达自己的想法和意图，并得到模型的回应。

此外，LLM拥有广阔的知识谱系，GPT-4的数据库也能使模型提供关于众多主题的深入的知识。

同时，GPT和其它LLM所不同之处在于其可扩展性非常强，用户可以在很多领域应用GPT，就比如说今天介绍的实验。

在这次实验中，研究人员一共安排了5名玩家，包括GPT。

研究人员总共进行了2项实验。

实验一：

测试GPT-4和GPT-3.5-turbo的性能差异。

实验二：

仅使用GPT-4进行游戏。研究人员一共进行了8局游戏，记录了每场游戏的日志，并对结果进行了讨论。

当然，对于给出生成式AI的潜力一个确切的结论来说，实验次数并不足够。但是按照这个思路进行更多组重复实验以及更加广泛的测试，就可以提供更多实质性的证据。

我们先来看实验一。

为了评估GPT-4与GPT-3.5-turbo相比的差异，尤其是在格式方面出现错误的机率、对游戏规则和进程等游戏背景相关内容的理解，以及类人反应方面的不同。

研究人员从第一轮交谈的第一个问题开始进行实验。

有了这一最清晰、变数最小的游戏部分，他们就可以精确地分析每个模型的能力，最大限度地减少外部因素的影响。

首先，研究人员比较了GPT-3.5-turbo和GPT-4对规则脚本中，所描述的30个地点中每个地点的30个首轮问题的回答。

向两种模型提问的行动请求脚本是相同的，只是更改了地点的关键字而已。

规则与基本策略都和上述脚本相同，如下图所示，实验人员通过将三个脚本合并为一个请求，来获得模型的响应。

为了进行更准确的比较，所有请求都固定为玩家 1，并假定玩家 1 不是间谍。

提交给每个模型的脚本如下：

你是玩家1，你不是间谍。本轮的地点是______。

现在轮到你来向其他玩家提问。从玩家1到5中（不可以选择自己）选择一位玩家，并写下你的问题。并按以下格式进行提交：n（玩家序号）_player，问题内容

对于游戏本身来说，一个高质量的提问应该包括以下几个部分：表明身份，即自己不是间谍。表明自己知道地点是什么，以此来证明自己不是间谍。最后保证间谍不会知道地点究竟在哪里。

同时，模型的输出结果必须符合上述脚本中的格式。研究人员表示，如果模型不遵守格式，那就要花费大量精力来进行纠正。

我们来看如下输出：

最上面就是一个不错的问题：你去这个地方需要买票吗？

下面的例子则是一些不太相关的问题，但是符合格式。

比如：问题中直接提到地点（就好像玩儿谁是卧底的时候直接把底牌交了）。

再比如：和上述游戏计划无关的问题。

（例：正确地点是剧院，GPT问其他玩家最喜欢的战争片是什么。）

当然，还有完全失败的情况：

比如经典话术：作为一个AI语言模型，我不能....

甚至还有从单纯重复问题的情况出现。

根据上述结果（完整结果见论文），研究人员得出结论，和GPT-3.5-turbo相比，GPT-4更适合下一步的实验。

检查数据时研究人员发现，GPT-3.5-turbo经常会生成一些脱离游戏背景的问题。比如上面提到的直接交出地点，使间谍能立即确定位置，对非间谍不利。

还有上面说的询问玩家的个人喜好，而非与游戏相关的话题，扰乱了游戏流程。这都是GPT-3.5干的。

此外，不按要求的格式回答，妨碍游戏进行，也是GPT-3.5的拿手好戏。

上表即为GPT-3.5不合要求的所有情况统计。有意思的是，总共68个回答，出错68次，没一个完美的输出。

GPT-3.5 pass，我们接下来再来看GPT-4进行下一个实验。

研究人员按照概述的规则进行了8次游戏，并用GPT-4采集了每次游戏的日志。

游戏中的所有反应都是由GPT-4生成的，而游戏的自动化代码则是由Python编写的。

根据本文中的规则和脚本，感兴趣的朋友们可以轻松重现该实验。

研究人员从地点列表中的A开始依次选择地点，总共进行了8场游戏。每局游戏都从玩家1开始，GPT-4会独立响应每个请求，不会从一局游戏保留到下一局游戏。

GPT-4仅根据提供的脚本来做出决定，这意味着开始玩家的身份不会影响游戏结果。

经过8轮游戏，研究人员得出的结论是，GPT-4在每个游戏和回合中的对话都是流畅和有机的，一连串的问答让人感觉真实可信、像人一样。

同时，在分析所提出的问题及其答案时，团队发现了一个明显的观察结果。

那就是，在没有经过任何专门训练或微调的情况下，GPT-4模型就能根据游戏流程，熟练地提出各种相关问题。

为了证明GPT-4在游戏中提出的问题和答案的多样性，研究人员将问题和相应的答案分成了几组

不过，虽说这些问题和答案没有经过预先训练，但每个回答都有自己的对象和独特的细微差别。

尽管没有经过任何特定的训练，GPT-4还是能根据游戏的流程巧妙地提出相关问题，似乎能分辨出哪些问题适合游戏环境，哪些问题可能不合适或多余。

比如下面这个例子：

问：我们在这里能吃到什么样的点心？

答：小点心和饮料，包括软饮料和酒精饮料，通常是小份供应。

问：这里通常提供什么类型的食品和点心？

答：在这个地点，您可以找到各种食品，如汉堡、热狗、棉花糖、爆米花、和冰激凌，以及苏打水和水等饮料，让每个人都能精神饱满。

问：我们可以在这里找到哪些食物？

答：这里有各种食品可供选择，包括油炸食品、棉花糖和爆米花。

问：您通常在这里吃什么类型的食物？

答：根据情况，我们主要吃腌制食品和不易腐坏的食品。

在论文的结尾，研究人员表示，尽管存在某些局限性，但这些模型不断增长的潜力还是很有希望促进创新、激发实际应用的。

GPT系列模型的进步非常迅速，尤其是在决策、可解释性和解决问题的能力方面。

最初，GPT-2的目标仅仅是处理基础层面的自然语言。后来，该模型发展成为具有多种任务的交互模型。

而现在，GPT-4在某些领域展示出了超越人类表现的逻辑推理能力。接下来，研究人员就可以深入到一个新的融合领域了。

GPT出色的自然语言处理能力可极大地帮助用户理解模型如何运行并解释其结果。

这种可访问性扩大了潜在用户群，向来自不同背景的用户张开了怀抱，增强了模型在不同领域的创造性，以及可扩展性。

最后，GPT-4的类人特质与其他模型相比，在模仿类人反应的能力方面毫无疑问更胜一筹。

对于某些任务或活动（比如说教育、体育、音乐和艺术等娱乐领域）来说，人性化地完成任务可能比返回最佳结果更重要。

参考资料：https://www.reddit.com/r/MachineLearning/comments/16qztf4/r_generative_ai_in_mafialike_game_simulation/

本文来自微信公众号“新智元”（ID:AI_era），编辑：拉燕，36氪经授权发布。

近期资讯

维达力申请 Cr-Zr-N 合金涂层用于提供高光泽度面专利，提升镀膜制品光泽度

金融界2024年12月26日消息，国家知识产权局信息显示，维达力实业（深圳）有限公司申请一项名为“Cr-Zr-N合金涂层用于提供高光泽度面的应用”的专利，公开号CN119177442A，申请日期为2023年6月。

金融界 2024-12-26

掌握插卡技巧：轻松应对生活中常见的插卡场景与注意事项

当然可以！以下是一篇关于《怎么插卡》的文章，希望你喜欢。在我们的日常生活中，插卡的场景其实是非常常见的。无论是手机、电脑，还是一些其他的电子设备，插卡都是一个必不可少的操作。今天，我们就来聊聊怎么插卡，虽然这个过程看似简单，但其实也有一些小技巧和注意事项。首先，咱们得明确一下，插卡的种类有很多，比如SIM卡、SD卡、信用卡等等。

新报观察 2024-12-26

新报观察 2024-12-26

维达力实业申请Cr-Zr-N合金材料及相关应用和制备方法专利，提供高亮度表面和卓越耐腐蚀性

金融界2024年12月26日消息，国家知识产权局信息显示，维达力实业（深圳）有限公司申请一项名为“Cr-Zr-N合金材料及合金涂层、合金膜制品、在高亮度表面涂层方面应用和制备方法”的专利，公开号CN119177444A，申请日期为2023年6月。

金融界 2024-12-26

维达力申请Cr-Zr-N合金涂层用于基材表面导电涂层应用专利，作为导电涂层兼具较好导电性能和优异耐腐蚀性能

金融界2024年12月26日消息，国家知识产权局信息显示，维达力实业（深圳）有限公司申请一项名为“Cr-Zr-N合金涂层用于基材表面的导电涂层的应用”的专利，公开号CN119177443A，申请日期为2023年6月。专利摘要显示，本发明涉及一种Cr‑Zr‑N合金涂层用于基材表面的导电涂层的应用。

金融界 2024-12-26

苹果如何通过质量、服务与创新赢得消费者信任的深度分析

苹果，这个我们每个人都耳熟能详的名字，似乎已经成了现代科技生活的代名词。无论是那款流行的手机，还是那台功能强大的电脑，苹果似乎总能带给我们一种无与伦比的信任感。那么，苹果到底是如何赢得这么多消费者的信任呢？我们可以从多个方面来分析这个问题。首先，苹果的产品质量毋庸置疑。无论是外观设计还是内部构造，苹果都以其精湛的工艺和严格的质量控制著称。

新报观察 2024-12-26

我国首台30MW级纯氢燃气轮机点火成功氢能储能技术重大进展

12月22日，全球首台30MW级纯氢燃气轮机“木星一号”整机试验首次点火成功。这款纯氢点火试验取得了预期效果，证明了纯氢燃气轮机系统的可靠性和安全性。这标志着我国在大功率氢燃气轮机和氢储能技术方面取得了重大进展，为新型长时储能技术带来了新的突破。据了解，这款纯氢燃气轮机是解决“沙戈荒”风光弃电问题的关键设备。

中关村在线 2024-12-26

三星Galaxy S25系列配置曝光 1月22日亮相

三星电子将于2025年1月22日在美国旧金山举办年度首场GalaxyUnpacked新品发布会，并正式推出GalaxyS25系列智能手机。据欧洲经销商透露，在欧洲市场上GalaxyS25起售价约为899欧元。

中关村在线 2024-12-26

GPT-4肆虐「谁是卧底」桌游，交谈逼真，类人属性仍有发展空间

研究结果

研究方法

推荐体验

相关资讯

AI诈骗肆虐，平台如何做好AIGC风险管理？

拥有Adobe国际认证，让你在ChatGPT肆虐的设计岗位下，依然坚挺

AI大模型在各行业肆虐，打工人该如何保住自己的饭碗？

GPT-4肆意挥刀下，量子人工智能还有多远？

谁是最强AI？Google史诗级复仇，碾压GPT-4

近期资讯

维达力申请 Cr-Zr-N 合金涂层用于提供高光泽度面专利，提升镀膜制品光泽度

掌握插卡技巧：轻松应对生活中常见的插卡场景与注意事项

荣耀CEO赵明：iPhone降价加剧行业竞争荣耀将迎更多挑战

华为官方翻新机开售！售价仅4288元起

新手机激活全攻略：顺利开启智能生活的第一步

维达力实业申请Cr-Zr-N合金材料及相关应用和制备方法专利，提供高亮度表面和卓越耐腐蚀性

维达力申请Cr-Zr-N合金涂层用于基材表面导电涂层应用专利，作为导电涂层兼具较好导电性能和优异耐腐蚀性能

苹果如何通过质量、服务与创新赢得消费者信任的深度分析

我国首台30MW级纯氢燃气轮机点火成功氢能储能技术重大进展

三星Galaxy S25系列配置曝光 1月22日亮相

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响