2016年和2017年最具影响力的AlphaGo大胜世界围棋冠军李世石和柯洁事件,其核心算法就用到强化学习算法Research (deepmind.com)。2022年第大热的ChatGPT也用到了reinforcement learning from human feedback (RLHF)。如今,强化学习正在各行各业开花结果,成为学术界和工业界追捧的热点。到底强化学习解决其中什么问题呢?
一句话来说,强化学习所能解决的问题是智能决策问题,更确切地说是序贯决策问题。
什么是序贯决策问题?就是需要连续不断地做出决策,才能实现最终目标的问题。
案例A:非线性二级摆系统
问题描述:该系统由一个台车(黑色矩形)和两个摆杆组成,课控制输入为台车的左右运动,该系统目的是让两级摆稳定在竖直位置。
在控制系统理论中,解决该问题的基本思路是先对两级摆系统建立精确的动力学模型,然后基于模型和各种非线性的理论设计控制方法。基于强化学习的方法,则不需要建模,也不需要设计控制器,只需构建一个强化学习算法,让二级摆系统自己去学习就可以了。
序贯决策问题:台车和摆杆每个状态下,给出应该施加给台车什么方向、多大的力的连续决策问题,一边使整个系统逐渐收敛到两个摆竖直的状态。
案例B:训练好的AlphaGo与柯洁对战的第二局
序贯决策问题:AlphaGo根据当前的棋局状态做出该下那个子的连续决策,以便赢得比赛。
案例C:模拟机器人模拟摔倒后爬起
序贯决策问题:机器人需要判断每个状态下,每个关节的力矩,以便能够站立起来。
案例D:ChatGPT智能问答机器人
序贯决策问题:需要判断当前用户提取的问题,ChatGPT应该回答什么,使得用户体验最好。