用强化学习训练大模型做数学推理,一个经典的尴尬局面是:模型要么答对了但废话连篇,要么写了一大堆最后答错了,而你根本不知道它到底在哪一步走偏的。
来自华为泰勒实验室、北京大学和上海财经大学的研究团队提出了SHAPE(Stage-aware Hierarchical Advantage via Potential Estimation),给推理链装上了一套「里程碑 + 推理税」机制——不仅告诉模型每一步推得对不对,还让它为啰嗦付出代价。结果是:准确率平均提升 3%,token 消耗直降 30%。
该工作已被ACL 2026 主会接收。
1. 痛点:模型推理的「稀疏信号」困境
目前强化学习的主流做法(GRPO)只在推理链的最末尾给一个对/错的信号。这就好比一个学生写了三页解题过程,老师只在最后批一个「❌」——学生完全不知道自己哪一步出了问题。
过程奖励模型(PRM)可以给每一步打分,但标注成本极高,而且模型容易钻空子(reward hacking)。近年来 MRT、SPO 等方法另辟蹊径:通过让模型在推理中间多次「快速试答」来估计当前走到哪了,以此构造中间信号。但这些方法各有各的短板。
团队认为,一步好的推理应该同时满足三件事:1️⃣得有实质进展(不能原地踏步)、2️⃣越难的阶段突破越值钱(雪中送炭>锦上添花:困惑时的突破更重要)、3️⃣越简洁越好(同样的进展用更少的字完成应该得到奖励)。
现有方法要么只管进展不管效率,要么只加长度惩罚但缺乏语义引导。SHAPE 就是为了把这三件事统一到一个框架里。
2. SHAPE 怎么做的?
整个框架分三步走:(A)切段+估势能 → (B)段级奖励计算 → (C)token 级信用再分配。
Step A:切段 + 估「推理势能」
工程上,团队用vLLM的Prefix Caching避免重复算共享前缀,rollout限制在max_tokens=16,开销可控。
Step B:段级奖励——「推理税」机制
代入后,每段的优势函数为:
第二项就是「推理税」,它同时干了两件事:税基是当前势能——推理早期势能低,税几乎为零,放心探索;后期势能高,税就重了,不许靠反复确认来刷分。税率跟段落长度正相关——越啰嗦税越高,逼模型精练表达。一个动态折扣因子,同时搞定了阶段感知和效率约束。
Step C:token 级信用再分配
3. 实验结果
3.1 主实验
三个基座模型(DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B、Qwen3-4B),五个数学推理 benchmark,全面评估。
训练曲线进一步佐证了这一结论:SHAPE 在训练全程保持准确率领先,同时驱动 response 长度持续下降,两条曲线的走势完美体现了又准又快的双重优化目标。
3.2 消融实验
消融实验揭示了几个关键发现:
4. 深度分析
进一步地,经过 SHAPE 训练后,模型在势能增益来源分布上呈现了显著变化:来自低势能状态的增益贡献占比从初始的 40.6% 上升到 44.4%,而来自高势能状态的贡献从 10.5% 降至 3%。模型学会了把脑子集中在最需要突破的地方。
自适应计算。SHAPE 按题目难度动态分配 token 预算,长度-难度缩放斜率比 GRPO 更陡、方差更小,这意味着:SHAPE 不是简单地「写得少」,而是精准地根据题目难度分配 token 预算。
消除推理坍缩。GRPO 在难题上存在一个显著的病理现象:response 长度分布在 32k 上下文上限处出现异常 spike。SHAPE 基本消除了这类现象——分布曲线在远低于上限处就平滑衰减至零。这进一步印证了推理税的效力:当模型在某条推理路径上持续消耗 token 却无实质进展时,累积的税会迫使模型及时止损。
5. 总结
SHAPE 用一个统一的数学框架——动态折扣的势函数塑形——同时解决了过程监督中的三个核心问题:势能增益度量、阶段难度感知和 token 效率约束。SHAPE 的核心贡献不仅在于具体的准确率和效率数字,更在于提出了推理税这一优雅的机制设计范式,为理解和优化 LLM 推理过程提供了新的理论透镜。