为什么大模型RLHF训出来会变保守

云服务器

大模型RLHF训出来的模型为什么会变保守，大模型RLHF变保守原因

大模型在RLHF（人类反馈强化学习）训练后变得保守，核心原因在于奖励模型对“安全性”和“合规性”的过度拟合，导致模型为规避被惩罚的风险，主动抑制了创造性输出和高风险高回报的回答策略，这种“过度谨慎”并非技术缺陷，而是当前对齐技术（Alignment）在平衡安全性与有用性时的必然妥协，随着2026年行业对模型鲁棒……

2026年6月22日
0053