预训练与SFT学习率差异
-
大模型SFT和预训练学习率差多少,SFT学习率设置多少合适
预训练学习率通常在1e-4到3e-5之间,而SFT微调学习率需大幅降低至1e-5到5e-6区间,两者存在数量级差异,通常建议SFT学习率为预训练阶段的1/10至1/5,以确保在保留通用知识的同时高效适配特定任务,核心差异深度解析:为何不能“一套参数走天下”大模型训练并非简单的线性缩放,预训练(Pre-train……
预训练学习率通常在1e-4到3e-5之间,而SFT微调学习率需大幅降低至1e-5到5e-6区间,两者存在数量级差异,通常建议SFT学习率为预训练阶段的1/10至1/5,以确保在保留通用知识的同时高效适配特定任务,核心差异深度解析:为何不能“一套参数走天下”大模型训练并非简单的线性缩放,预训练(Pre-train……