1.强化学习能解决什么问题

作者：李富贵bilibili发布时间：2023-02-19

2016年和2017年最具影响力的AlphaGo大胜世界围棋冠军李世石和柯洁事件，其核心算法就用到强化学习算法Research (deepmind.com)。2022年第大热的ChatGPT也用到了reinforcement learning from human feedback (RLHF)。如今，强化学习正在各行各业开花结果，成为学术界和工业界追捧的热点。到底强化学习解决其中什么问题呢？

一句话来说，强化学习所能解决的问题是智能决策问题，更确切地说是序贯决策问题。

什么是序贯决策问题？就是需要连续不断地做出决策，才能实现最终目标的问题。

案例A：非线性二级摆系统

问题描述：该系统由一个台车(黑色矩形)和两个摆杆组成，课控制输入为台车的左右运动，该系统目的是让两级摆稳定在竖直位置。

在控制系统理论中，解决该问题的基本思路是先对两级摆系统建立精确的动力学模型，然后基于模型和各种非线性的理论设计控制方法。基于强化学习的方法，则不需要建模，也不需要设计控制器，只需构建一个强化学习算法，让二级摆系统自己去学习就可以了。

序贯决策问题：台车和摆杆每个状态下，给出应该施加给台车什么方向、多大的力的连续决策问题，一边使整个系统逐渐收敛到两个摆竖直的状态。

案例B：训练好的AlphaGo与柯洁对战的第二局

序贯决策问题：AlphaGo根据当前的棋局状态做出该下那个子的连续决策，以便赢得比赛。

案例C：模拟机器人模拟摔倒后爬起

序贯决策问题：机器人需要判断每个状态下，每个关节的力矩，以便能够站立起来。

案例D：ChatGPT智能问答机器人

序贯决策问题：需要判断当前用户提取的问题，ChatGPT应该回答什么，使得用户体验最好。

相关资讯

51CTO 2023-05-25

深度强化学习实战

链接：https://pan.baidu.com/s/1PEo7aQ82fqewTBQ3H4pAlA?pwd=wvul 提取码：wvul1.详细讲解深度强化学习基础知识，内容丰富2.提供多个实战案例，学习更有效，实践更有用3.包含深度强化学***算法+PyTorch、OpenAI Gym等流行工具，新颖实用4.作者在深度强化学习领域经验丰富，知识点梳理清晰，易懂易学内容简介本书先介绍深度强化学习的基础知识及相关算法，然后给出多个实战项目，以期让读者可以根据环境的直接反馈对智能体加以调整和改进，提升运用深度

百度 OpenAI

叫什么名字好呢随便吧 2023-04-16

1.强化学习能解决什么问题

推荐体验

相关资讯

1.什么是机器学习

强化学习

为什么ChatGPT用强化学习而非监督学习？

什么是从人类反馈中强化学习（RLHF）？

深度强化学习实战

近期资讯

理想同学App实测:车企造的AI应用，除了视觉，其他都很一般

消费走向“求真”与“向实”，品牌如何在趋势变化中寻找新叙事？

日本护发第一集团公告退出中国

这家正冲击IPO的企业被责令整改！

Solid.js 最新官方文档翻译（12）—— 派生信号与 Memos

苹果的AI已经翻车了

汽配城里来了群线上出海的年轻人：档口起家，4年成亿元“小巨人”

9点1氪｜麦琳转让股权给李行亮；樊振东、陈梦宣布退出WTT世界排名；韩国拟斥资20万亿效仿台积电建韩积电

年薪百万招不到人，AI工程师都去哪了？

蒙牛“裁员降本”背后：营收利润双降、市值大幅缩水

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响