如何判断 SFT 到什么程度就可以开始做 RL

发布时间：2026/6/22 19:11:51

SFT 负责建立基础能力格式、指令遵循RL 在此基础上优化输出质量。两者不能互相替代。过早做 RL 会导致训练崩溃过晚做又会浪费算力。一、做RL的目的是啥和SFT有啥区别强化学习的本质是在已有策略的基础上通过奖励信号进行局部优化。这意味着RL 不是用来教会模型能做什么而是用来优化怎么做得更好。对比维度对比维度SFT监督微调RL强化学习/RLHF/DPO核心目标让模型听懂指令、按要求输出符合人类使用习惯优化生成质量强化安全合规学习机制token level学习目标内容复刻指令对应的回答模式以sequence level粒度依据外界反馈调整生成策略数据要求需准备“instructionanswer”的高质量配对样本需整理同一问题下“choosen/reject”回答的排序数据实际效果稳住输出底线避免模型胡乱作答、脱离指令突破基础baseline让回答更精准、更符合预期SFT没训好直接RL会有什么后果如果 SFT 后的模型连基本任务都完成不了RL 的探索空间会过大奖励信号过于稀疏训练会陷入低奖励陷阱模型几乎拿不到正向奖励梯度信号微弱策略崩塌模型为了避免惩罚退化到输出安全但无意义的内容KL 散度爆炸策略更新幅度过大偏离参考模型太远二、什么时候可以停止 SFT1. 格式和能力已对齐了能按要求输出指定格式JSON、代码块等不会答非所问比如指令理解准确率 85%如果这些还没达到RL 只会放大问题。2. 性能达到上限验证集Loss稳定不再有波动Pass Rate、准确率等关键指标多轮不再提升继续加数据出现过拟合训练集 Loss 降验证集 Loss 不降甚至反升同时SFT 的上限由数据集质量决定继续堆数据边际收益会越来越低。3. passk 明显高于 pass1两者差距大说明模型知道正确答案的形态但输出不稳定。RL 可以把偶尔正确变成稳定正确。也不是pass1 低就不能做 RL可以观察passk / pass1 的比值判断RL可以做的程度有多少三、当前的一些主流训练路径Deepseek R1训练过程从 DeepSeek-R1-Zero 的纯 RL 探索到 DeepSeek-R1 的“冷启动数据 - 第一阶段 RL - 拒绝采样与 SFT - 第二阶段 RL”的pipeline冷启动 SFT用几千到几万条高质量样本建立基础。比如数据构成参考这个配比指令遵循 30%、知识问答 30%、推理任务 20%、安全对齐 20%RL 阶段Reasoning RL代码、数学以结果校验为奖励信号GRPO 或 PPOPreference RL主观任务、对齐用 Reward Model 或人类排序数据循环迭代收集 RL 筛选出的高质量样本回头补一轮 SFT再继续 RL。DeepSeek-R1 和 Qwen2.5-Math 都走了这条路。四、来自不同场景的一些简单经验1. 代码生成任务SFT 目标模型能生成语法正确、逻辑基本合理的代码一般判断指标HumanEval / MBPP 上 pass1 30%语法错误率 10%能正确处理简单的边界条件RL 切入点用单元测试作为奖励信号通过测试 1否则 0引入过程奖励如 HCAPO对关键步骤如循环条件、递归终止给予额外奖励2. 多模态推理任务SFT 目标模型能看懂图片生成与图像相关的回答判断指标简单视觉问答如图中有几个苹果准确率 60%能生成包含视觉细节的描述不是泛泛而谈推理链中会引用图像内容如根据图中的三角形RL 切入点结合 GRPO 优化答案准确性参考案例 Qwen3-VL 的强化微调SFT 后在 MathVista 上约 45% 准确率GRPO 后提升到 58%。3. 长程 Agent 任务SFT 目标模型知道如何调用工具能完成简单任务判断指标单步工具调用成功率 70%5-10步任务完成率 30%能生成合法的工具调用参数JSON 格式正确RL 切入点引入过程奖励模型PRM对每一步动作打分案例 OpenClaw-RL 在工具调用任务上SFT 后完成率 17%引入 PRM 的 RL 后提升到 30%。写在最后SFT 越久越好过度 SFT 会让模型失去探索能力RL 能修复 SFT 数据质量差的问题不能。RL 只能在 SFT 建立的基础上优化SFT 阶段的问题会被放大不会被修复。pass1 低就不能做 RL观察passk / pass1 的比值判断RL可以做的程度有多少学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

📰 新闻详情

如何判断 SFT 到什么程度就可以开始做 RL

相关新闻

【CSDN原创检测机制深度解密】：AI生成内容的5大绕过陷阱与3条合规红线

嵌入式开发踩坑记：STM32与短信模块TTL通讯失败，一根地线引发的‘血案’

高斯盒嵌入与TaxoBell框架：知识表示新范式

最新新闻

192.最规范DDPM源码：配置类封装+拆分网络模块，轻松二次开发

3步解锁VSCode书签：从代码标记到团队协作的完整指南

Gemini Advanced开通失败原因揭秘：三层权限验证模型

GPU 资源调度：AI 集群算力管理的核心引擎

大语言模型解码策略实战：Beam Search与Tilted Sampling的工程对比与优化

深入解析NXP KE1xF缓存控制与内存管理机制

日新闻

数据采集卡的“心脏手术”：DC-DC电源设计与纹波抑制实战

SQL注入绕过技巧全解析：从基础过滤到WAF对抗实战

硬核 | Git reflog 拯救世界：找回误删分支、撤销错误 reset 的终极武器

周新闻

第四章：本体推理的技术基础设施

OpenClaw：本地AI工作流的可编程调度中枢

3分钟打造你的游戏隐身衣：用Deceive重新掌控社交边界

月新闻

仅剩47小时！Gemini 2.5欧洲语言模型权重微调窗口即将关闭：3个轻量级LoRA适配器+1套验证集，零代码快速部署

【Gemini客户反馈分析实战指南】：20年AI产品专家亲授3大高价值洞察模型与落地工具包

Gemini用户差评聚类分析：3大隐性需求缺口暴露，错过本周将影响Q3产品迭代优先级