ORPO一步完成SFT与对齐
-
大模型ORPO怎么把SFT和对齐一步做完,大模型ORPO训练原理
大模型ORPO通过联合优化生成概率与拒绝概率,将监督微调(SFT)的数据拟合与偏好对齐的奖励模型训练合并为单一端到端过程,从而在减少计算资源消耗的同时显著提升模型对齐效率,传统的大模型训练流程如同两条平行轨道:先通过海量语料进行SFT以掌握语言模式,再引入人类反馈进行强化学习(RLHF)以修正价值观,这种分步走……
大模型ORPO通过联合优化生成概率与拒绝概率,将监督微调(SFT)的数据拟合与偏好对齐的奖励模型训练合并为单一端到端过程,从而在减少计算资源消耗的同时显著提升模型对齐效率,传统的大模型训练流程如同两条平行轨道:先通过海量语料进行SFT以掌握语言模式,再引入人类反馈进行强化学习(RLHF)以修正价值观,这种分步走……