RLHF训练不稳定的因素

云服务器

大模型RLHF的PPO训练为什么不稳定，RLHF训练不稳定的原因

PPO训练不稳定的核心原因在于奖励模型（RM）的噪声干扰、策略梯度估计的高方差以及KL散度惩罚项在动态平衡中的敏感性，导致价值函数与策略更新产生冲突，在2026年的大模型对齐实践中，尽管PPO（近端策略优化）仍是主流，但其“震荡”现象已成为工程师日常调试的高频痛点，这并非单一代码错误,而是强化学习算法在大参数空……

2026年6月22日
0051