一些课程的大纲
- 原理
- 实践
时间分配合理,心态平稳
OpenAI Spinning Up: https://spinningup.readthedocs.io/zh-cn/latest/spinningup/rl_intro2.html 记得看
书:
侧重直观理解
- 圣经 sutton,类似西瓜书,弱化数学推导
- C.Szepesvari, Algorithms for Reinforcement Learning
控制:数学性强,自动控制背景
- D.P. Bertsekas and J. Tsitsiklis, Neuro-Dynamic Programming, AthenaScientific, 1996
- D.P. Bertsekas,Reinforcement Learning and Optimal Control, AthenaScientific, 2019
- S. Meyn, Control Systems and Reinforcement Learning, CambridgUniversity Press, 2022.
深度强化学习:侧重如何用DRL解决问题,实验性+实践性
赵世钰
强化学习的数学原理
基本概念
- 贝尔曼方程
- 贝尔曼期望方程
基本方法
- 值/策略迭代
- MC学习
- 随机近似与梯度下降
- TD学习
- 价值函数近似
- 策略梯度方法
- AC方法
周博磊
强化学习纲要
RL概述
MDP
无模型预测与控制
- Value-based RL model
- Policy-based RL model
进阶
- 游戏应用
分布式构建
蘑菇书
缝合怪:
- 周博磊:强化学习纲要
- 李宏毅:深度强化学习
- 李科浇:世界冠军带你从零实践强化学习
https://datawhalechina.github.io/easy-rl/#/
RL概念
MDP介绍
无模型预测与控制
基于值的强化学习模型
DQN
DQN进阶
基于策略的强化学习模型
(基础离散动作->连续动作)策略梯度
近端策略优化(PRO算法)
演员-评论员算法
稀疏奖励
模仿学习
深度确定性策略梯度算法