MaxQ是所有可能奖励的总和还是最高可能奖励的总和?

我正在编写一个简单的Q学习示例,要更新Q值,您需要一个maxQ‘。

我不确定maxQ是指所有可能的奖励的总和,还是指可能的最高奖励:

?

?

转载请注明出处:http://www.jlbyp.com/article/20230324/1624781.html