深度强化学习基础：价值学习

强化学习基础：价值学习王树森深度强化学习基础：价值学习No.1 Deep Q-Network (DQN)DQN 是一个价值学习的方法，用一个神经网络去近似Q*函数。DQN 的输入是s，w为神经网络的参数，输出是对每一个动作a的打分。怎么训练DQN呢？最常用的是TD算法。No.2 Temporal Difference (TD) LearningTD算法即使不完成旅程，也能更新参数。No.3 TD

Catherine_he_ye

964人浏览 · 2021-08-04 16:32:38

Catherine_he_ye · 2021-08-04 16:32:38 发布

强化学习基础：价值学习

王树森深度强化学习基础：价值学习

No.1 Deep Q-Network (DQN)

DQN 是一个价值学习的方法，用一个神经网络去近似Q^*函数。
在这里插入图片描述 DQN 的输入是s，w为神经网络的参数，输出是对每一个动作a的打分。
怎么训练DQN呢？ 最常用的是TD算法。

No.2 Temporal Difference (TD) Learning

在这里插入图片描述
TD算法即使不完成旅程，也能更新参数。

No.3 TD Learning for DQN

在这里插入图片描述

No.4 Summary

在这里插入图片描述

九章云极普惠算力

更多推荐

cover

阿里云 Coding Plan Lite 下架，各家算力吃紧，上哪买还能支持GLM-5和5.1的coding plan？_2026-04-15

九章云极普惠算力

cover

看遍了市面上的coding plan，我发现还是这个好用

九章云极普惠算力

Kandinsky-5.0-I2V-Lite-5s惊艳效果展示：赛博朋克街景→霓虹闪烁+雨滴滑落动态视频

本文介绍了如何在星图GPU平台上自动化部署Kandinsky-5.0-I2V-Lite-5s镜像，实现高效图生视频转换。该工具能将静态赛博朋克街景图片快速转换为动态视频，添加霓虹闪烁、雨滴滑落等效果，适用于短视频制作、广告创意等场景，显著提升内容创作效率。

九章云极普惠算力

所有评论(0)

查看更多评论

Catherine_he_ye

@Catherine_he_ye

已为社区贡献2条内容