TRM:让大模型推理过程从主观感受变为可度量能力,大幅提升准确率!

发布时间:2026/6/25 17:15:55
TRM:让大模型推理过程从主观感受变为可度量能力,大幅提升准确率! 大模型推理结果之外过程也重要大模型推理能力日益增强但答案正确思考过程就一定好吗这就如同做数学题两个学生都答对了一个步骤完美另一个却绕了弯路。对于大模型推理而言也存在类似问题。模型在给出最终回答前会生成一段很长的reasoning trace其中包含探索、反思等但也有重复、跳步等问题。然而绝大多数评测和奖励信号只看最终答案这就忽略了思考过程的差异。那么什么样的思考过程算好如何评估这种评估信号能否帮助模型学会更好的推理方式TRM关注推理过程的新模型针对上述问题来自上海人工智能实验室、上海交通大学、香港中文大学的研究团队提出了TRMThinking Reward Model。它不再只看大模型“答没答对”而是直接给推理过程打分让“想得好”成为可度量、可训练、可优化的能力。具体来说团队提出了统一框架用ME² principle刻画推理质量用DAG - based pairwise evaluation还原推理结构并在此之上训练Thinking Reward Model将“推理质量”变成可复用的奖励信号。为何“答案对不对”不够用过去很多大模型评测主要看最终答案是否正确对于问答题、代码题来说这种方式很直接。但对于推理模型只看答案会忽略模型是如何得到答案的。同样答对一题不同模型的推理过程可能差异很大低质量推理不仅增加生成成本还会让模型在题目条件变化时更容易出错。在强化学习训练里这个问题更明显如果奖励只看最终答案就无法区分哪条推理链更值得学习而这正是TRM关注的问题。TRM整体框架TRM整体框架如下(a) 提出ME² principle, (b) 用DAG抽象复杂推理结构, (c) 训练Thinking Reward Model并将其用于Test - Time Scaling和RL。ME² principle定义好的思考过程要评估推理质量得先明确“好”的定义。论文沿两条正交轴拆解推理质量粒度上分macro整体结构和micro单步内容目标上分efficiency高效和effectiveness有效。两两组合得到四个维度Macro - Efficiency整体结构是否高效好的推理链会避免反复重启和无效检查。Macro - Effectiveness整体结构是否有效推理主线应围绕问题目标分支关系清楚。Micro - Efficiency单步表达是否简洁每一步最好有明确作用。Micro - Effectiveness单步内容是否正确局部计算等需自洽。这四个维度构成后续评估和优化流程的基石。DAG - based Evaluation让推理可结构化模型推理链通常是自然语言文本真实推理不一定直线前进长文本还容易淹没重要结构信号。因此论文把自由形式的推理链抽象为有向无环图DAG具体步骤如下Step Partitioning先按段落粗切分再用高频起始词作为分隔符得到有语义意义的步骤边界。Reasoning Structuring按时间顺序遍历推理步骤用大模型分配语义父节点构建边合并相邻节点得到紧凑的DAG呈现复杂结构。Pairwise Evaluation根据ME² principle构造语义抽象让评估模型给出两条推理链的相对偏好覆盖ME² principle四个维度。这样评估模型能更稳定地判断推理链质量。Thinking Reward Model将推理质量变为奖励信号基于上述评估框架研究团队构建了TRM - Preference数据集。研究者先用多个开源推理模型生成候选推理链筛掉答案错误的轨迹只保留答案正确的样本后续比较重点就转向“哪条推理链更好”。论文用DeepSeek - V3.2在ME²四个维度上对DAG进行成对评估减少位置偏差后得到103K训练偏好对 1.5K验证偏好对构成TRM - Preference数据集。TRM以Llama - 3.1 - 8B - Instruct为初始化训练完成后会为每条推理链输出一个标量分数分数越高推理质量越高。在验证集上TRM取得88.6%的准确率优于两个代表性PRM基线。TRM的核心发现核心发现一高质量推理链得出的答案更可靠TRM评估推理链质量也能提高最终答案准确率。测试时可将TRM用于Best - of - N selection让模型生成多条候选推理链由TRM选出质量最高的一条。实验显示随着N增大TRM选出的结果最终准确率更高。核心发现二用作RL奖励模型答得更准在训练阶段TRM能为强化学习提供更细粒度的奖励信号。传统RLVR通常只看答案对错加入TRM后模型可在答对基础上学习更清晰、高效的推理方式。论文采用GRPO算法通过gated reward shaping把可验证奖励与TRM给出的思考奖励组合“门控”确保只有答案正确时TRM才参与reward shaping。实验结果显示这种思路在多个模型和任务上都提升了性能。核心发现三不止答案更准推理过程也更优性能提升不代表推理过程一定变好。论文用DeepSeek - V3.2按照ME² principle对不同训练策略生成的推理链进行成对比较结果显示在三个基座模型上TRM训练后的策略相较于多种基线策略都取得了更高胜率说明TRM让模型生成的推理过程更优。TRM的意义与未来展望随着大模型应用场景变复杂推理过程的重要性会继续上升。未来的模型既要答对也要更会组织思路。TRM的意义在于它让“想得好”从主观感受变成可度量、训练、优化的能力。那么TRM在未来大模型的发展中还会带来哪些惊喜呢