强化学习5——价值函数近似(VFA)
价值函数近似(VFA)原因:状态太多,算力存储能力有限。只能通过插值的办法(神经网络)近似求得无法算到的状态价值函数值或状态动作价值函数值,或者是策略。如下:方法:线性拟合,神经网络,决策树,邻近算法有模型无模型两种方法来代替,1. MC;2. TDMC近似方法TD近似方法价值动作函数近似(AVFA)有模型无模型...
·
更多推荐
价值函数近似(VFA)原因:状态太多,算力存储能力有限。只能通过插值的办法(神经网络)近似求得无法算到的状态价值函数值或状态动作价值函数值,或者是策略。如下:方法:线性拟合,神经网络,决策树,邻近算法有模型无模型两种方法来代替,1. MC;2. TDMC近似方法TD近似方法价值动作函数近似(AVFA)有模型无模型...
更多推荐
所有评论(0)