如何判断 SFT 到什么程度就可以开始做 RL 发布时间:2026/6/22 19:11:51 SFT 负责建立基础能力格式、指令遵循RL 在此基础上优化输出质量。两者不能互相替代。过早做 RL 会导致训练崩溃过晚做又会浪费算力。一、做RL的目的是啥和SFT有啥区别强化学习的本质是在已有策略的基础上通过奖励信号进行局部优化。这意味着RL 不是用来教会模型能做什么而是用来优化怎么做得更好。对比维度对比维度SFT监督微调RL强化学习/RLHF/DPO核心目标让模型听懂指令、按要求输出符合人类使用习惯优化生成质量强化安全合规学习机制token level学习目标内容复刻指令对应的回答模式以sequence level粒度依据外界反馈调整生成策略数据要求需准备“instructionanswer”的高质量配对样本需整理同一问题下“choosen/reject”回答的排序数据实际效果稳住输出底线避免模型胡乱作答、脱离指令突破基础baseline让回答更精准、更符合预期SFT没训好直接RL会有什么后果如果 SFT 后的模型连基本任务都完成不了RL 的探索空间会过大奖励信号过于稀疏训练会陷入低奖励陷阱模型几乎拿不到正向奖励梯度信号微弱策略崩塌模型为了避免惩罚退化到输出安全但无意义的内容KL 散度爆炸策略更新幅度过大偏离参考模型太远二、什么时候可以停止 SFT1. 格式和能力已对齐了能按要求输出指定格式JSON、代码块等不会答非所问比如指令理解准确率 85%如果这些还没达到RL 只会放大问题。2. 性能达到上限验证集Loss稳定不再有波动Pass Rate、准确率等关键指标多轮不再提升继续加数据出现过拟合训练集 Loss 降验证集 Loss 不降甚至反升同时SFT 的上限由数据集质量决定继续堆数据边际收益会越来越低。3. passk 明显高于 pass1两者差距大说明模型知道正确答案的形态但输出不稳定。RL 可以把偶尔正确变成稳定正确。也不是pass1 低就不能做 RL可以观察passk / pass1 的比值判断RL可以做的程度有多少三、当前的一些主流训练路径Deepseek R1训练过程从 DeepSeek-R1-Zero 的纯 RL 探索到 DeepSeek-R1 的“冷启动数据 - 第一阶段 RL - 拒绝采样与 SFT - 第二阶段 RL”的pipeline冷启动 SFT用几千到几万条高质量样本建立基础。比如数据构成参考这个配比指令遵循 30%、知识问答 30%、推理任务 20%、安全对齐 20%RL 阶段Reasoning RL代码、数学以结果校验为奖励信号GRPO 或 PPOPreference RL主观任务、对齐用 Reward Model 或人类排序数据循环迭代收集 RL 筛选出的高质量样本回头补一轮 SFT再继续 RL。DeepSeek-R1 和 Qwen2.5-Math 都走了这条路。四、来自不同场景的一些简单经验1. 代码生成任务SFT 目标 模型能生成语法正确、逻辑基本合理的代码一般判断指标HumanEval / MBPP 上 pass1 30%语法错误率 10%能正确处理简单的边界条件RL 切入点用单元测试作为奖励信号通过测试 1否则 0引入过程奖励如 HCAPO对关键步骤如循环条件、递归终止给予额外奖励2. 多模态推理任务SFT 目标 模型能看懂图片生成与图像相关的回答判断指标简单视觉问答如图中有几个苹果准确率 60%能生成包含视觉细节的描述不是泛泛而谈推理链中会引用图像内容如根据图中的三角形RL 切入点结合 GRPO 优化答案准确性参考案例 Qwen3-VL 的强化微调SFT 后在 MathVista 上约 45% 准确率GRPO 后提升到 58%。3. 长程 Agent 任务SFT 目标 模型知道如何调用工具能完成简单任务判断指标单步工具调用成功率 70%5-10步任务完成率 30%能生成合法的工具调用参数JSON 格式正确RL 切入点引入过程奖励模型PRM对每一步动作打分案例 OpenClaw-RL 在工具调用任务上SFT 后完成率 17%引入 PRM 的 RL 后提升到 30%。写在最后SFT 越久越好过度 SFT 会让模型失去探索能力RL 能修复 SFT 数据质量差的问题不能。RL 只能在 SFT 建立的基础上优化SFT 阶段的问题会被放大不会被修复。pass1 低就不能做 RL观察passk / pass1 的比值判断RL可以做的程度有多少学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】 相关新闻 【CSDN原创检测机制深度解密】:AI生成内容的5大绕过陷阱与3条合规红线 更多请点击: https://kaifayun.com 第一章:CSDN AI 数字营销的 AI 生成内容可以规避 CSDN 原创检测吗? CSDN 的原创检测系统基于多维度语义指纹比对,包括 TF-IDF 加权词频、n-gram 句法结构相似度、段落级向量嵌入(BE… 2026/6/11 18:39:47 嵌入式开发踩坑记:STM32与短信模块TTL通讯失败,一根地线引发的‘血案’ STM32与短信模块TTL通讯故障排查:地线连接的隐藏陷阱那天下午,实验室的示波器屏幕上始终没有出现预期的波形。作为嵌入式开发者,我们常常会遇到各种奇怪的硬件问题,而这次遇到的TTL串口通讯故障,让我对"共地"… 2026/6/11 6:35:23 高斯盒嵌入与TaxoBell框架:知识表示新范式 1. 高斯盒嵌入:知识表示的新范式在传统知识表示领域,概念通常被建模为向量空间中的点(如Word2Vec)或超矩形区域(如Box Embeddings)。而高斯盒嵌入(Gaussian Box Embeddings)作为一种… 2026/6/12 18:21:15 最新新闻 192.最规范DDPM源码:配置类封装+拆分网络模块,轻松二次开发 摘要 扩散模型(Diffusion Models)是当前生成式AI领域最前沿的技术之一,在图像生成、音频合成、分子设计等任务中展现出超越GAN和VAE的生成质量。本文从数学原理出发,逐步推导扩散模型的前向过程与反向去噪过程,给出基于PyTorch的完整可运行代码实现(基于DDPM框架),并深… 2026/6/22 18:22:20 3步解锁VSCode书签:从代码标记到团队协作的完整指南 3步解锁VSCode书签:从代码标记到团队协作的完整指南 【免费下载链接】vscode-bookmarks Bookmarks Extension for Visual Studio Code 项目地址: https://gitcode.com/gh_mirrors/vs/vscode-bookmarks 你是否曾在复杂的代码库中迷失方向,反复寻找… 2026/6/22 18:22:20 Gemini Advanced开通失败原因揭秘:三层权限验证模型 1. 项目概述:这不是“开通一个AI”,而是一次账户权限与服务边界的重新定义Gemini Advanced 订阅与开通,表面看只是点击几下、输入信用卡信息的流程,但实际操作中,它远不止是“多了一个按钮”或“快了一点响应”。我从2… 2026/6/22 18:22:20 GPU 资源调度:AI 集群算力管理的核心引擎 GPU 资源调度:AI 集群算力管理的核心引擎一、GPU 算力碎片化与利用率困境:AI 基础设施的核心痛点 在 AI 集群中,GPU 是最昂贵也最稀缺的资源。一张 A100-80G 的月租成本约 1.5 万元,一个 8 卡节点的年成本超过 140 万元。然而&… 2026/6/22 18:22:20 大语言模型解码策略实战:Beam Search与Tilted Sampling的工程对比与优化 1. 项目概述:为什么我们需要超越Beam Search?在本地部署大语言模型(LLM)进行推理时,我们常常面临一个核心矛盾:生成质量与生成速度/成本之间的权衡。早期,我们习惯于使用Greedy Decoding&#x… 2026/6/22 18:22:20 深入解析NXP KE1xF缓存控制与内存管理机制 1. 项目概述与核心价值在嵌入式开发,尤其是基于Cortex-M4这类高性能微控制器的项目中,我们常常会面临一个经典矛盾:CPU内核的主频越来越高,动辄上百兆赫兹,而作为主要代码存储介质的片上Flash,其读取速度却… 2026/6/22 17:22:19 日新闻 数据采集卡的“心脏手术”:DC-DC电源设计与纹波抑制实战 zlinear开源电子 前言 大家好,我是ZLinear的硬件工程师。 在数据采集卡的硬件设计圈子里,有一个老生常谈的误区:很多人把90%的精力花在ADC选型、信号调理和FPGA逻辑上,却忽视了最基础、最致命的环节——电源。 我曾经接手过一… 2026/6/22 0:22:14 SQL注入绕过技巧全解析:从基础过滤到WAF对抗实战 1. 从“新手”到“绕过”:为什么SQL注入依然危险如果你刚接触网络安全,或者对渗透测试有点兴趣,那你肯定在各种教程、靶场和CTF题目里见过“SQL注入”这四个字。它太经典了,经典到很多人觉得它已经是“上古漏洞”,现代… 2026/6/22 0:22:14 硬核 | Git reflog 拯救世界:找回误删分支、撤销错误 reset 的终极武器 凌晨两点,你刚写完一个复杂的功能模块,正准备提交。终端里敲下 git reset --hard HEAD~3 想清理一下本地无用的提交,回车之后,屏幕上闪过一堆文件被删除的信息。你突然意识到——你搞错了。那 3 个提交里,有你整整两天… 2026/6/22 0:22:14 周新闻 第四章:本体推理的技术基础设施 当LLM不够用了——本体推理的企业决策实践第三章讲了"怎么落地"的方法论。这一章聚焦在"落地靠什么"——推理的技术基础设施。 如果说前三章是在论证"为什么要做本体推理"和"怎么做才能不失败",那么从这一章开始࿰… 2026/6/21 1:14:33 OpenClaw:本地AI工作流的可编程调度中枢 1. OpenClaw不是“另一个前端界面”,而是本地AI工作流的中枢调度器很多人第一次看到 OpenClaw,下意识会把它当成 ComfyUI 或 Ollama Web UI 那类图形化前端——点几下就能调模型、聊聊天。我最初也这么想,直到在 Ubuntu 24.04.4 的移动硬盘虚… 2026/6/22 5:22:52 3分钟打造你的游戏隐身衣:用Deceive重新掌控社交边界 3分钟打造你的游戏隐身衣:用Deceive重新掌控社交边界 【免费下载链接】Deceive 🎩 Appear offline for League of Legends, VALORANT, and Legends of Runeterra. 项目地址: https://gitcode.com/gh_mirrors/de/Deceive 你是否曾因为登录游戏就被… 2026/6/22 5:22:37 月新闻 仅剩47小时!Gemini 2.5欧洲语言模型权重微调窗口即将关闭:3个轻量级LoRA适配器+1套验证集,零代码快速部署 更多请点击: https://codechina.net 第一章:Gemini 2.5欧洲语言翻译能力演进与窗口期战略意义 Gemini 2.5在欧洲语言支持方面实现了质的跃升,尤其在德语、法语、西班牙语、意大利语及葡萄牙语的长上下文跨语言对齐、术语一致性保持和文化语境… 2026/6/21 17:31:29 【Gemini客户反馈分析实战指南】:20年AI产品专家亲授3大高价值洞察模型与落地工具包 更多请点击: https://kaifayun.com 第一章:Gemini客户反馈分析的核心价值与演进脉络 在AI产品持续迭代的背景下,Gemini模型的客户反馈已从早期零散的体验吐槽,逐步演变为结构化、多模态、实时驱动的关键决策依据。其核心价值不仅… 2026/6/22 8:41:06 Gemini用户差评聚类分析:3大隐性需求缺口暴露,错过本周将影响Q3产品迭代优先级 更多请点击: https://intelliparadigm.com 第一章:Gemini用户差评聚类分析:3大隐性需求缺口暴露,错过本周将影响Q3产品迭代优先级 我们对2024年6月1日–6月28日期间App Store与Google Play中含“Gemini”关键词的12,743条低分&a… 2026/6/21 17:31:41
【CSDN原创检测机制深度解密】:AI生成内容的5大绕过陷阱与3条合规红线 更多请点击: https://kaifayun.com 第一章:CSDN AI 数字营销的 AI 生成内容可以规避 CSDN 原创检测吗? CSDN 的原创检测系统基于多维度语义指纹比对,包括 TF-IDF 加权词频、n-gram 句法结构相似度、段落级向量嵌入(BE… 2026/6/11 18:39:47
嵌入式开发踩坑记:STM32与短信模块TTL通讯失败,一根地线引发的‘血案’ STM32与短信模块TTL通讯故障排查:地线连接的隐藏陷阱那天下午,实验室的示波器屏幕上始终没有出现预期的波形。作为嵌入式开发者,我们常常会遇到各种奇怪的硬件问题,而这次遇到的TTL串口通讯故障,让我对"共地"… 2026/6/11 6:35:23
高斯盒嵌入与TaxoBell框架:知识表示新范式 1. 高斯盒嵌入:知识表示的新范式在传统知识表示领域,概念通常被建模为向量空间中的点(如Word2Vec)或超矩形区域(如Box Embeddings)。而高斯盒嵌入(Gaussian Box Embeddings)作为一种… 2026/6/12 18:21:15
192.最规范DDPM源码:配置类封装+拆分网络模块,轻松二次开发 摘要 扩散模型(Diffusion Models)是当前生成式AI领域最前沿的技术之一,在图像生成、音频合成、分子设计等任务中展现出超越GAN和VAE的生成质量。本文从数学原理出发,逐步推导扩散模型的前向过程与反向去噪过程,给出基于PyTorch的完整可运行代码实现(基于DDPM框架),并深… 2026/6/22 18:22:20
3步解锁VSCode书签:从代码标记到团队协作的完整指南 3步解锁VSCode书签:从代码标记到团队协作的完整指南 【免费下载链接】vscode-bookmarks Bookmarks Extension for Visual Studio Code 项目地址: https://gitcode.com/gh_mirrors/vs/vscode-bookmarks 你是否曾在复杂的代码库中迷失方向,反复寻找… 2026/6/22 18:22:20
Gemini Advanced开通失败原因揭秘:三层权限验证模型 1. 项目概述:这不是“开通一个AI”,而是一次账户权限与服务边界的重新定义Gemini Advanced 订阅与开通,表面看只是点击几下、输入信用卡信息的流程,但实际操作中,它远不止是“多了一个按钮”或“快了一点响应”。我从2… 2026/6/22 18:22:20
GPU 资源调度:AI 集群算力管理的核心引擎 GPU 资源调度:AI 集群算力管理的核心引擎一、GPU 算力碎片化与利用率困境:AI 基础设施的核心痛点 在 AI 集群中,GPU 是最昂贵也最稀缺的资源。一张 A100-80G 的月租成本约 1.5 万元,一个 8 卡节点的年成本超过 140 万元。然而&… 2026/6/22 18:22:20
大语言模型解码策略实战:Beam Search与Tilted Sampling的工程对比与优化 1. 项目概述:为什么我们需要超越Beam Search?在本地部署大语言模型(LLM)进行推理时,我们常常面临一个核心矛盾:生成质量与生成速度/成本之间的权衡。早期,我们习惯于使用Greedy Decoding&#x… 2026/6/22 18:22:20
深入解析NXP KE1xF缓存控制与内存管理机制 1. 项目概述与核心价值在嵌入式开发,尤其是基于Cortex-M4这类高性能微控制器的项目中,我们常常会面临一个经典矛盾:CPU内核的主频越来越高,动辄上百兆赫兹,而作为主要代码存储介质的片上Flash,其读取速度却… 2026/6/22 17:22:19
数据采集卡的“心脏手术”:DC-DC电源设计与纹波抑制实战 zlinear开源电子 前言 大家好,我是ZLinear的硬件工程师。 在数据采集卡的硬件设计圈子里,有一个老生常谈的误区:很多人把90%的精力花在ADC选型、信号调理和FPGA逻辑上,却忽视了最基础、最致命的环节——电源。 我曾经接手过一… 2026/6/22 0:22:14
SQL注入绕过技巧全解析:从基础过滤到WAF对抗实战 1. 从“新手”到“绕过”:为什么SQL注入依然危险如果你刚接触网络安全,或者对渗透测试有点兴趣,那你肯定在各种教程、靶场和CTF题目里见过“SQL注入”这四个字。它太经典了,经典到很多人觉得它已经是“上古漏洞”,现代… 2026/6/22 0:22:14
硬核 | Git reflog 拯救世界:找回误删分支、撤销错误 reset 的终极武器 凌晨两点,你刚写完一个复杂的功能模块,正准备提交。终端里敲下 git reset --hard HEAD~3 想清理一下本地无用的提交,回车之后,屏幕上闪过一堆文件被删除的信息。你突然意识到——你搞错了。那 3 个提交里,有你整整两天… 2026/6/22 0:22:14
第四章:本体推理的技术基础设施 当LLM不够用了——本体推理的企业决策实践第三章讲了"怎么落地"的方法论。这一章聚焦在"落地靠什么"——推理的技术基础设施。 如果说前三章是在论证"为什么要做本体推理"和"怎么做才能不失败",那么从这一章开始࿰… 2026/6/21 1:14:33
OpenClaw:本地AI工作流的可编程调度中枢 1. OpenClaw不是“另一个前端界面”,而是本地AI工作流的中枢调度器很多人第一次看到 OpenClaw,下意识会把它当成 ComfyUI 或 Ollama Web UI 那类图形化前端——点几下就能调模型、聊聊天。我最初也这么想,直到在 Ubuntu 24.04.4 的移动硬盘虚… 2026/6/22 5:22:52
3分钟打造你的游戏隐身衣:用Deceive重新掌控社交边界 3分钟打造你的游戏隐身衣:用Deceive重新掌控社交边界 【免费下载链接】Deceive 🎩 Appear offline for League of Legends, VALORANT, and Legends of Runeterra. 项目地址: https://gitcode.com/gh_mirrors/de/Deceive 你是否曾因为登录游戏就被… 2026/6/22 5:22:37
仅剩47小时!Gemini 2.5欧洲语言模型权重微调窗口即将关闭:3个轻量级LoRA适配器+1套验证集,零代码快速部署 更多请点击: https://codechina.net 第一章:Gemini 2.5欧洲语言翻译能力演进与窗口期战略意义 Gemini 2.5在欧洲语言支持方面实现了质的跃升,尤其在德语、法语、西班牙语、意大利语及葡萄牙语的长上下文跨语言对齐、术语一致性保持和文化语境… 2026/6/21 17:31:29
【Gemini客户反馈分析实战指南】:20年AI产品专家亲授3大高价值洞察模型与落地工具包 更多请点击: https://kaifayun.com 第一章:Gemini客户反馈分析的核心价值与演进脉络 在AI产品持续迭代的背景下,Gemini模型的客户反馈已从早期零散的体验吐槽,逐步演变为结构化、多模态、实时驱动的关键决策依据。其核心价值不仅… 2026/6/22 8:41:06
Gemini用户差评聚类分析:3大隐性需求缺口暴露,错过本周将影响Q3产品迭代优先级 更多请点击: https://intelliparadigm.com 第一章:Gemini用户差评聚类分析:3大隐性需求缺口暴露,错过本周将影响Q3产品迭代优先级 我们对2024年6月1日–6月28日期间App Store与Google Play中含“Gemini”关键词的12,743条低分&a… 2026/6/21 17:31:41