强化学习技术的发展旨在实现有效的应用,但目前还相对有限。
想象一台电脑如同儿时的我们,紧盯屏幕中灵活的马里奥,在游戏世界上下探索,通过不断学习和尝试,电脑更快地掌握了通关秘诀,逐渐碾压我们并成为游戏中的常胜将军。这就是在“强化学习”的帮助下,机器在现实世界已然达成的目标。
强化学习像是一个从零开始学习的机器人,它通过与环境的交互,不断积累经验,逐渐成为某个领域的专家。其包含智能体、环境、状态、动作、奖励值、状态转移、轨迹、回报8个基本概念。以超级马里奥游戏为例,智能体是马里奥;环境是游戏程序;状态是当前屏幕或最近几帧的画面;动作是马里奥向左、向右走或向上跳等;吃到金币可定义为奖励值“+1”,通关可定义为奖励值“+1000”,在数学上,我们通常用Rt表示第t时刻获得的奖励值;状态转移是指基于当前状态,如果马里奥向上跳一步,环境会重新计算新状态和画面;轨迹指在一个回合游戏中智能体观测到的所有状态、动作和奖励;回报指从当前时刻到回合结束的所有奖励值总和,用数学公式表示,Ut等于从第t时刻到游戏结束前可能拿到的回报值,也即Rt一直加到Rn的累积求和,其中n表示游戏的结束轮次。智能体希望获得最大化回报,即Ut越大越好。
在象棋、围棋等体育比赛中,强化学习软件不仅能提高运动员的竞技水平,还能提升观众对比赛的观赏体验。例如,在网络直播中,象棋或围棋软件具备实时分析功能,即时告知观众当前局势是黑方还是白方占优,它还能判断每一步棋是好棋还是坏棋。
强化学习另一个重要应用领域是自动驾驶。通过实时获取其他物体的位置和速度数据,强化学习使系统自主判断当前车辆是否处于危险状态,并在发现危险后,协助驾驶员迅速做出调整,保证安全行驶。
医疗自动诊断是强化学习的一个热门应用方向。基于强化学习的医疗软件发挥了辅助诊断作用。在线平台通过对病人进行一系列提问,并根据病人的回答动态调整问诊方式,经过多轮问诊,强化学习软件能够逐渐优化其提问顺序和内容,更准确地了解病人的症状和病史,为医生提供更全面的信息。
强化学习的目标是寻找一个策略,使回报的期望值最大化,这个策略称为“最优策略”。需要强调的是,一个好的策略应该关注最大化整体回报值,而不仅仅是当前时刻的奖励值。比如下棋,最终目标是赢得整局比赛,而不仅仅关注每一步棋的得失。
强化学习技术的发展旨在实现有效的应用,但目前还相对有限。展望未来,下面四个关键方向值得深入研究:一、提升样本效率。在强化学习领域,这一直是个关键目标。通过研究和开发新的算法和技术,可以实现在有限的样本数据下更有效地训练智能体;二、不确定场景下的奖励函数设计。在一些实际场景中,奖励函数可能并不明确或难以确定。未来的研究可致力于设计更为合理的奖励函数,以便智能体能够在不确定的环境中学到有效的策略;三、在线学习思想在离线数据中的应用。虽然大量数据以离线方式存在,但强化学习的核心在于交互和在线学习。未来的突破口可能在于如何将在线学习的思想应用到离线数据上,以更好地训练强化学习模型;四、多智能体决策的研究。在真实世界中,智能体通常通过分布式决策系统进行交互。未来的发展方向之一是如何将单一智能体学习策略的思想扩展到多个智能体学习策略的场景,实现更复杂的协同决策。
作者 | 方冠华,系复旦大学管理学院统计与数据科学系青年副研究员
来源 | 《商学院》杂志2&3月合刊