跟清华大学马少平教授学AI：第二篇计算机是如何学会下棋的 (八)

作者：书圈发布时间：2023-12-12

清华人工智能深度学习

第二篇计算机是如何学会下棋的（八）

清华大学计算机系马少平

第八节：总结

艾博士：小明，关于计算机如何学会下棋的，我们就介绍这么多，请你总结一下，我们都讲了哪些内容？

小明边回忆边回答说：还是讲了很多内容的，让我总结一下。

（1）通过一个简单分钱币问题引出了计算机下棋问题。对于简单的下棋问题或许可以通过穷举所有可能状态的方法找出最佳的行棋策略。但是对于像围棋、象棋这样的棋类，由于其庞大的状态空间，是不可能通过穷举的办法寻找最佳行棋策略的。

（2）受人类下棋思考过程的启发，提出了下棋的极小-极大模型。但是由于该模型需要搜索给定深度内的所有可能的状态，搜索时间过长，同样不适合于像围棋、象棋这样的棋类。

（3）为了减少一些不必要的搜索，提出了α-β剪枝算法。α-β剪枝算法利用已有的搜索结果，剪掉一些不必要的分枝，有效提高了搜索效率。国际象棋、中国象棋的计算机程序均采用了这个框架。

（4）α-β剪枝算法的性能严重依赖于棋局的估值，由于围棋存在不容易估值问题，该方法不适用于计算机围棋。为此引入了蒙特卡洛树搜索方法，通过随机模拟的方法解决围棋棋局估值的问题，使得计算机围棋水平有了很大提高。

（5）蒙特卡洛树搜索仍然具有盲目性，没有有效地利用围棋的相关知识。AlphaGo将深度学习，也就是神经网络与蒙特卡洛树搜索有效地融合在一起，利用策略网络和估值网络引导蒙特卡洛树搜索，有效地提高了计算机围棋的水平，达到了战胜人类大师的水平。

（6）强化学习利用自己产生的数据进行学习。深度强化学习是一种用神经网络实现的强化学习方法。根据围棋的特点，提出了三种常用的深度强化学习方法：基于策略梯度的强化学习、基于价值评估的强化学习和基于演员-评价方法的强化学习。三种方法均利用自我对弈产生的数据进行训练，但解决问题的角度不同，主要体现在不同的损失函数定义上，但最终殊途同归，均通过强化学习、自我提高的方法训练策略网络和估值网络。

（7）AlphaGo Zero实现了从零学习，并达到了更高的围棋水平。AlphaGo Zero完全抛弃了人类棋手的棋谱，完全利用自我对弈的数据和强化学习方法从零开始学习，逐步提高下围棋的水平。

艾博士：小明总结的非常全面。我们学习计算机是如何下棋的，并不单纯是学习这些方法，编写一个下棋程序，更重要的是从中学习解决问题的方法。无论是AlphaGo还是AlphaGo Zero，并没有什么创新的新技术，更多地是如何利用已有技术，将围棋问题转化为这些技术能求解的问题，并有机地将这些方法融合在一起，最终达到了战胜人类最高水平棋手的目的。是集成创新的典范。

《计算机是如何学会下棋的》篇完结

本文内容来自公众号：图灵人工智能、AI光影社

参考书籍

《艾博士：深入浅出人工智能》

ISBN：9787302646969

作者：马少平

定价：89.80元

内容简介

本书是一本针对初学者介绍人工智能基础知识的书籍。本书采用通俗易懂的语言讲解人工智能的基本概念、发展历程和主要方法，内容涵盖人工智能的核心方法，包括什么是人工智能、神经网络（深度学习）是如何实现的、计算机是如何学会下棋的、计算机是如何找到**路径的、如何用随机算法求解组合优化问题、统计机器学习方法是如何实现分类与聚类的、专家系统是如何实现的等，每种方法都配有例题并给出详细的求解过程，以帮助读者理解和掌握算法实质，提高读者解决实际问题的能力。此外，本书可以帮助人工智能的开发人员理解各种算法背后的基本原理。书中的讲解方法和示例，有助于相关课程的教师讲解相关概念和算法。总之，这是一本实用性强、通俗易懂的人工智能入门教材，适合不同背景的读者学习和使用。