0%

免模型学习的价值函数计算方法

  • 蒙特卡洛方法:将策略迭代中,基于模型的部分替换为免模型部分

    更新时间:2024-2-24 10:28:04

  • 时序差分方法

    更新时间:2024-2-27 23:34:53

[TOC]

阅读全文 »