强化学习中回报(Return)、价值(Value)、动作价值(Action-Value)和优势(Advantage)的联系
在做项目的过程中总是对这些概念有些模糊,如果不搞明白很容易在读论文和看代码的时候绕晕,因此写一篇笔记理清一下关系。 1.回报 Return 回报表示从时间步开始,经过未来所有时间步(或是有限步数)的折扣累积奖励。形式上可以写为: 其中: 是在时间步的即时奖励 是折扣因子,用于衡量未来奖励的重要性 是终止时间步(在无限时间步的情形下,使用极限) 回报代表了从时间步开始智能体可以获得的总收益