广义优势估计(Generalized Advantage Estimation,GAE)

Warning:这是一篇GPT-based笔记

在强化学习中,广义优势估计(Generalized Advantage Estimation,GAE)是一种对优势函数进行平滑估计的方法,通过对不同步长的时序差分残差(TD residual)按指数加权累积,以在偏差-方差权衡上取得最佳效果。GAE引入了参数控制权重,当时退化为单步TD(0),可获得低方差、高偏差的估计;当时退化为蒙特卡洛回报,具有低偏差、高方差的特点。在实践中,选择中间值的常常能显著提高策略梯度算法(如PPO)的样本效率和稳定性。

一、背景:优势函数与偏差-方差权衡

1.优势函数(Advantage Function)

  • 优势函数定义为

    它衡量在状态下执行动作相较于策略平均水平的收益增益。

  • 在策略梯度中,使用优势函数可以去除与状态无关的常数基线V,从而降低方差,但仍保持无偏。

2.偏差-方差权衡

  • 蒙特卡洛回报完整依赖未来真实奖励,无偏但因为来轨迹随机性导致高方差
    • 蒙特卡洛方法高方差、低偏差
    • 由于完全依赖真是回报,不使用估计值,所以是无偏估计器,只要采样足够,期望就等于真实的;但完整的回报受到整个未来路径上所有的随机性影响(包括未来的动作选择、转移、奖励),所以路径之间差异很大,导致估计波动很大
  • 时序差分(TD)方法仅使用一步奖励加上价值估计,方差低但因依赖估计值引入偏差
    • 时序差分方法低方差、高偏差
    • 因为TD方法只用一步奖励和一个状态的估计,不用考虑整个未来轨迹,所以波动较小,且TD以“逐步更新”的方法稳定收敛;TD的更新依赖当前的估计,如果这个估计本身有误,就会将误差“传播”到当前状态中,引入偏差,所以TD是有偏估计器,但这个偏差会随时间下降
  • GAE通过-加权方案,将两者的优缺点平滑折中

二、GAE的定义与公式

1.TD残差

对任意时间步,定义一阶TD残差(有些地方也称作TD误差,是一个概念):

该残差是标准TD(0)更新中的核心量。

2.指数加权累积

GAE将不同步长的TD残差按指数权重累积,得到对任意的广义优势估计:

其中控制对更远残差的衰减。

3.特殊情况

    • ,退化为TD(0),方差最低但是偏差最高。
    • ,退化为蒙特卡洛优势估计,偏差最小但是方差最大。

三、GAE的推导与直观理解

1.从-return角度:

-return定义为对不同步长n-step目标按加权,GAE则在此基础上提出基线得到优势估计。

2.从偏差-方差折中:

  • 越接近0,更依赖单步估计,减少方差但累计偏差;
  • 越接近1,更依赖完整回报,减少偏差但增加方差;

3.动态规划视角:

将多步TD误差递归地累积,视作对未来价值估计误差的“指数衰减”补偿

四、算法实现要点

  • 在PPOBuffer等回放缓存中,GAE计算通常按倒序进行:

    1
    2
    3
    4
    5
    adv = 0
    for t in reversed(range(T)):
    delta = rewards[t] + gamma * V[t+1] - V[t]
    adv = delta + gamma * lambda_ * adv
    advantages[t] = adv

    最终将用于策略梯度更新。

  • 同时可计算回报目标,用于价值网络的训练

五、应用与实验效果

  • PPO、TRPO等主流策略梯度算法广泛采用GAE,当时常能达到最优效果。
  • 在高维连续控制任务上,相比固定n-step或纯蒙特卡洛,GAE显著提升了样本效率与训练稳定性。
  • 多篇后续工作也证实了GAE在复杂策略和大规模分布式训练中的优越性。

六、小结

广义优势估计(GAE)通过对TD残差进行指数加权累积,引入控制偏差-方差权衡,兼具低方差与低偏差的优势。在实践中,GAE已成为策略梯度算法(尤其是PPO/TRPO)的标配组件,有效提升了收敛速度和策略性能,是现代深度强化学习中不可或缺的关键技术之一。


广义优势估计(Generalized Advantage Estimation,GAE)
https://misaka0502.github.io/2025/04/23/gae/
作者
YuMio
发布于
2025年4月23日
许可协议