以 ChatGPT 为代表的大语言模型,展现出“类人”的文本理解能力和文本推理能力,已被视作是实现通用人工智能的关键技术。
尽管大语言模型能够进行类似于人类的认知处理,但是现有的基于大语言模型的智能代理与人类智能存在着明显区别。
具体来说:当前的大语言模型智能体依赖于通过解码和泛化来从预训练数据中获得已有知识,而人类智能则能通过在现实世界中的实践和体验来发现和学习新知识。
受到人类婴儿智力发展过程的启发,学界提出了“具身认知”这一假说。代理智能,是通过观察环境和与其互动而产生的,即智能的产生来源于整合了物理、社会和语言的现实世界。
数字游戏因其复杂性、多样性、可控性、安全性和可重复性,被认为是培养智能代理的理想环境。
从经典的国际象棋和扑克游戏到现代电子游戏,比如 Atari 游戏、星际争霸 II、Minecraft 和 DOTA II,游戏一直在推动着 AI 研究的发展。
传统的基于强化学习的代理模式,是通过行为层面的策略学习,来实现预期奖励的最大化。
而构建基于大语言模型的游戏代理,能够利用认知能力来深入理解游戏玩法,并能与游戏环境进行交互,在形式上更接近于人类智能。
此前该领域的综述论文,主要集中于介绍现有大语言模型、以及介绍大语言模型智能体的一般性技术和应用,对于游戏领域的关注相对较少。
为了弥补这一空缺,美国佐治亚理工学院胡思昊和所在团队,尝试针对基于大语言模型的游戏智能体的最新发展进行全面系统的综述。
日前,相关论文以《基于大语言模型的游戏代理的研究》(A Survey on Large Language Model-Based Game Agents)为题发在 arXiv[1]。
图 | 相关论文(来源:arXiv)
论文中:
首先,他们提供了一个统一的参考框架,描述了构建大语言模型的游戏智能体的基本模块,涵盖了六个核心功能组件:感知、记忆、思考、角色扮演、行动和学习。
其次,他们介绍了一种分类体系,将现有文献分为六种游戏类别,包括冒险、竞争、合作、模拟、制作与探索等类别的游戏。
对于每种类别的游戏,他们分别描述了技术挑战、支持的游戏环境、以及常用的优化策略。
最后,他们展望了大语言模型的游戏智能体在未来的潜在研究方向。
(来源:arXiv)
目前,这一研究方向的相关技术,主要用来探索语言模型在游戏环境中的交互式理解和学习,旨在探索更接近于通用人工智能的智能代理形式。
当然,相关技术在游戏中也有着非常广泛的应用,比如创建更拟人的非玩家角色,从而作为游戏助手或拟人化的游戏角色。
在模拟功能上,基于大语言模型的游戏智能体可以模拟人类的日常生活和社交,为人类玩家提供更沉浸、更真实的游戏体验。
此外,凭借良好的可解释性,基于大语言模型的游戏智能体,能够为人类新手玩家提供游戏决策和原因说明,从而达到游戏教育的目的。
另据悉,在已有大语言模型的智能代理技术之中,人们目前主要集中于将现有的开源模型用于游戏之中。
研究人员指出,未来该领域应该更多地关注如何让智能代理自治地与游戏环境交互。
并在交互中学习环境中的知识、理解游戏的玩法,从而获得原本不属于大语言模型的经验,而非单纯地压缩与解码人类已经积累的文本知识。
参考资料:
1.https://arxiv.org/pdf/2404.02039
https://github.com/git-disl/awesome-LLM-game-agent-papers