广义优势估计(Generalized Advantage Estimation,GAE)
Warning:这是一篇GPT-based笔记
在强化学习中,广义优势估计(Generalized Advantage Estimation,GAE)是一种对优势函数进行平滑估计的方法,通过对不同步长的时序差分残差(TD residual)按指数加权累积,以在偏差-方差权衡上取得最佳效果。GAE引入了参数
控制权重,当 时退化为单步TD(0),可获得低方差、高偏差的估计;当 时退化为蒙特卡洛回报,具有低偏差、高方差的特点。在实践中,选择中间值的 常常能显著提高策略梯度算法(如PPO)的样本效率和稳定性。
一、背景:优势函数与偏差-方差权衡
1.优势函数(Advantage Function)
优势函数定义为
它衡量在状态
下执行动作 相较于策略平均水平的收益增益。 在策略梯度中,使用优势函数可以去除与状态无关的常数基线V,从而降低方差,但仍保持无偏。
2.偏差-方差权衡
- 蒙特卡洛回报完整依赖未来真实奖励,无偏但因为来轨迹随机性导致高方差
- 蒙特卡洛方法高方差、低偏差
- 由于完全依赖真是回报,不使用估计值,所以是无偏估计器,只要采样足够,期望就等于真实的
;但完整的回报 受到整个未来路径上所有的随机性影响(包括未来的动作选择、转移、奖励),所以路径之间差异很大,导致估计波动很大
- 时序差分(TD)方法仅使用一步奖励加上价值估计,方差低但因依赖估计值引入偏差
- 时序差分方法低方差、高偏差
- 因为TD方法只用一步奖励和一个状态的估计,不用考虑整个未来轨迹,所以波动较小,且TD以“逐步更新”的方法稳定收敛;TD的更新依赖当前的
估计,如果这个估计本身有误,就会将误差“传播”到当前状态中,引入偏差,所以TD是有偏估计器,但这个偏差会随时间下降
- GAE通过
-加权方案,将两者的优缺点平滑折中
二、GAE的定义与公式
1.TD残差
对任意时间步
该残差是标准TD(0)更新中的核心量。
2.指数加权累积
GAE将不同步长的TD残差按指数权重累积,得到对任意
其中
3.特殊情况
- 当
: ,退化为TD(0),方差最低但是偏差最高。
- 当
: ,退化为蒙特卡洛优势估计,偏差最小但是方差最大。
三、GAE的推导与直观理解
1.从 -return角度:
2.从偏差-方差折中:
越接近0,更依赖单步估计,减少方差但累计偏差; 越接近1,更依赖完整回报,减少偏差但增加方差;
3.动态规划视角:
将多步TD误差递归地累积,视作对未来价值估计误差的“指数衰减”补偿
四、算法实现要点
在PPOBuffer等回放缓存中,GAE计算通常按倒序进行:
1
2
3
4
5adv = 0
for t in reversed(range(T)):
delta = rewards[t] + gamma * V[t+1] - V[t]
adv = delta + gamma * lambda_ * adv
advantages[t] = adv最终将
用于策略梯度更新。 同时可计算回报目标
,用于价值网络的训练
五、应用与实验效果
- PPO、TRPO等主流策略梯度算法广泛采用GAE,当
时常能达到最优效果。 - 在高维连续控制任务上,相比固定n-step或纯蒙特卡洛,GAE显著提升了样本效率与训练稳定性。
- 多篇后续工作也证实了GAE在复杂策略和大规模分布式训练中的优越性。
六、小结
广义优势估计(GAE)通过对TD残差进行指数加权累积,引入