值函数

相对于奖励函数这种即时的衡量方式,值函数是一种长期的衡量方式。值函数就是从当前的状态开始到将来的某个状态下的累计奖励值。 它是一种从当前状态开始到所有可能的状态的长期满意度的衡量

更多推荐