[TOC]
0.动手学深度学习
5-基于策略梯度的RL
[TOC]
4-基于价值函数的RL
[TOC]
3-基于价值表格的免模型学习
免模型学习的价值函数计算方法
蒙特卡洛方法:将策略迭代中,基于模型的部分替换为免模型部分
更新时间:2024-2-24 10:28:04
时序差分方法
更新时间:2024-2-27 23:34:53
[TOC]
强化学习实验
[TOC]
0-强化学习资料
1-强化学习概念与原理
[TOC]
2-MDP与有模型学习
9.Ceph参数配置
提取Ceph O版的所有参数分析
待学习资源记录
[TOC]