[TOC]
2+3.线性模型与全连接前馈神经网络
0.动手学深度学习
[TOC]
5-基于策略梯度的RL
[TOC]
4-基于价值函数的RL
[TOC]
3-基于价值表格的免模型学习
免模型学习的价值函数计算方法
蒙特卡洛方法:将策略迭代中,基于模型的部分替换为免模型部分
更新时间:2024-2-24 10:28:04
时序差分方法
更新时间:2024-2-27 23:34:53
[TOC]
强化学习实验
[TOC]
0-强化学习资料
1-强化学习概念与原理
[TOC]
[TOC]
[TOC]
[TOC]
[TOC]
免模型学习的价值函数计算方法
蒙特卡洛方法:将策略迭代中,基于模型的部分替换为免模型部分
更新时间:2024-2-24 10:28:04
时序差分方法
更新时间:2024-2-27 23:34:53
[TOC]
[TOC]
[TOC]