0%

0-强化学习资料

一些课程的大纲

  1. 原理
  2. 实践

时间分配合理,心态平稳

OpenAI Spinning Up: https://spinningup.readthedocs.io/zh-cn/latest/spinningup/rl_intro2.html 记得看

image-20240507233945829

书:

侧重直观理解

  • 圣经 sutton,类似西瓜书,弱化数学推导
  • C.Szepesvari, Algorithms for Reinforcement Learning

控制:数学性强,自动控制背景

  • D.P. Bertsekas and J. Tsitsiklis, Neuro-Dynamic Programming, AthenaScientific, 1996
  • D.P. Bertsekas,Reinforcement Learning and Optimal Control, AthenaScientific, 2019
  • S. Meyn, Control Systems and Reinforcement Learning, CambridgUniversity Press, 2022.

深度强化学习:侧重如何用DRL解决问题,实验性+实践性

赵世钰

强化学习的数学原理

基本概念

  • 贝尔曼方程
  • 贝尔曼期望方程

基本方法

  • 值/策略迭代
  • MC学习
  • 随机近似与梯度下降
  • TD学习
  • 价值函数近似
  • 策略梯度方法
  • AC方法

周博磊

强化学习纲要

RL概述

MDP

无模型预测与控制

  • Value-based RL model
  • Policy-based RL model

进阶

  • 游戏应用

分布式构建

蘑菇书

缝合怪:

  • 周博磊:强化学习纲要
  • 李宏毅:深度强化学习
  • 李科浇:世界冠军带你从零实践强化学习

https://datawhalechina.github.io/easy-rl/#/

RL概念

MDP介绍

无模型预测与控制

  • 基于值的强化学习模型

    • DQN

    • DQN进阶

  • 基于策略的强化学习模型

    • (基础离散动作->连续动作)策略梯度

    • 近端策略优化(PRO算法)

  • 演员-评论员算法

稀疏奖励

模仿学习

深度确定性策略梯度算法

-------------本文结束-------------