MaxQ是所有可能奖励的总和还是最高可能奖励的总和?
我正在编写一个简单的Q学习示例,要更新Q值,您需要一个maxQ‘。
我不确定maxQ是指所有可能的奖励的总和,还是指可能的最高奖励:
?
?
转载请注明出处:http://www.jlbyp.com/article/20230324/1624781.html
我正在编写一个简单的Q学习示例,要更新Q值,您需要一个maxQ‘。
我不确定maxQ是指所有可能的奖励的总和,还是指可能的最高奖励:
?
?
转载请注明出处:http://www.jlbyp.com/article/20230324/1624781.html