为什么大模型RLHF训出来会变保守
-
大模型RLHF训出来的模型为什么会变保守,大模型RLHF变保守原因
大模型在RLHF(人类反馈强化学习)训练后变得保守,核心原因在于奖励模型对“安全性”和“合规性”的过度拟合,导致模型为规避被惩罚的风险,主动抑制了创造性输出和高风险高回报的回答策略,这种“过度谨慎”并非技术缺陷,而是当前对齐技术(Alignment)在平衡安全性与有用性时的必然妥协,随着2026年行业对模型鲁棒……
大模型在RLHF(人类反馈强化学习)训练后变得保守,核心原因在于奖励模型对“安全性”和“合规性”的过度拟合,导致模型为规避被惩罚的风险,主动抑制了创造性输出和高风险高回报的回答策略,这种“过度谨慎”并非技术缺陷,而是当前对齐技术(Alignment)在平衡安全性与有用性时的必然妥协,随着2026年行业对模型鲁棒……