调整自定义环境奖励 - 使用稳定基线 3 的强化学习 (第 4 页)
这段文字主要讲述了将一个自定义环境转换为Doom环境,并使用强化学习算法训练智能体。实验中,作者尝试了两种不同的奖励机制:短期奖励机制: 只有在吃到苹果时才会获得短暂的奖励,其他情况下没有奖励。这种机制下,智能体学习效果不佳,几乎没有进步。长期奖励机制: 一旦吃到苹果,就会持续获得奖励,即使之后没有再吃到苹果。这种机制下,智能体学习效果较好,虽然没有达到预期效果,但依然有提升。作者通过...
·
这段文字主要讲述了将一个自定义环境转换为Doom环境,并使用强化学习算法训练智能体。
实验中,作者尝试了两种不同的奖励机制:
- 短期奖励机制: 只有在吃到苹果时才会获得短暂的奖励,其他情况下没有奖励。这种机制下,智能体学习效果不佳,几乎没有进步。
- 长期奖励机制: 一旦吃到苹果,就会持续获得奖励,即使之后没有再吃到苹果。这种机制下,智能体学习效果较好,虽然没有达到预期效果,但依然有提升。
作者通过对比两种奖励机制的实验结果,说明了奖励机制对强化学习算法训练效果的影响。他认为,即使将环境转换为Doom环境,也不能直接将强化学习算法应用到环境中,需要根据环境的特点设计合适的奖励机制,才能使智能体有效地学习。
此外,作者还提到了他想要继续训练使用长期奖励机制的模型,因为该模型可能存在进一步提升的空间。
总而言之,这段文字分享了作者在将自定义环境转换为Doom环境,并训练强化学习智能体的过程中,遇到的挑战和经验。他强调了奖励机制设计的重要性,以及需要根据环境特点进行调整才能取得理想的学习效果。
通过调整环境奖励来帮助我们的强化学习算法更好地学习。文本教程和示例代码:https://pythonprogramming.net/engineering-rewards-reinforcement-learning-stable-baselines-3-tutorial/从零开始的神经网络书籍:https://nnfs.io
更多推荐


所有评论(0)