监督信号的粒度与训练效率

https://arxiv.org/abs/2605.16379

问题的起点#

合成数据在 LLM 训练中的表现极度不一致：verifier 引导的管道能做到奥赛级数学和形式化证明，闭环自训练却反复导致 model collapse。数据处理不等式（DPI）可以给出统一解释，在此基础上进一步引入 meta-level / $\eta$ 框架，就能刻画不同训练方法之间的效率差异。

这套分析的数学本身不难，价值在于 framing。闭环退化、RLVR 优于 SFT、噪声鲁棒性、多样性比数量重要、reward hacking，这些现象单独看都是已知的，但可以用一条信息论逻辑线把它们串起来，得到一个统一的解读框架。

核心逻辑链#

DPI：闭环必然退化#

DPI 可以用传话游戏来理解：信息经过一次加工只会保持或丢失，不会凭空增加。模型在自身输出上反复训练，如果没有外部信号进入，每轮就是一次传话：

$I(X; Z_{t+1}) \le I(X; Z_t) \quad \forall t$

$X$ 是真实任务， $Z_t$ 是第 $t$ 轮模型。最好的结果是信息持平，实际中有限采样和优化误差使不等式严格成立。Model collapse 是闭环信息循环的数学必然，不是 bug。

外部信号打破闭环#

成功的管道引入外部信号 $S$ （verifier、编译器、固定 teacher），信息上界变成：

$I(X; Z_{t+1}) \le I(X; Z_t) + I(X; S \mid Z_t)$

$I(X; S \mid Z_t)$ 是外部信号超出模型已知的额外任务相关信息。只要这一项为正，循环就可以持续改进。所以真正重要的区分不是数据是否”合成”，而是管道是 information-closed 还是 information-open。

这里有一个容易忽视的细节：随机性本身不注入信息，它只是生成多样化的候选池；外部信号才是过滤器，负责保留与任务对齐的候选。所以有效的合成管道本质上是 explore-then-select 循环，随机性负责探索， $S$ 负责选择。反过来，如果信号与 student 共同演化（比如未校准的 judge 漂移），它就不再是真正的外部信号，循环会重新关闭。

$\eta$ ：信号效率的度量#

确认管道是 information-open 之后，下一个问题是效率：同样有外部信号，为什么有的方法效率差几个量级？可以用 $\eta$ 来回答。

$\pi$ （task-relevant partition）是从任务角度对输出空间做的等价类划分。用算法竞赛来类比：Special Judge 只检查答案是否满足约束，不关心具体是哪一组解，这就是 $\pi$ -可测信号；diff 判定要求逐字符匹配标准答案，在”正确”这个等价类内部做了不必要的区分，所以不是 $\pi$ -可测的。

分解定理把监督信号的总信息拆成两部分：

$I(Y; S \mid Q) = \underbrace{I([Y]_\pi; S \mid Q)}_{\text{任务相关}} + \underbrace{I(Y; S \mid [Y]_\pi, Q)}_{\text{类内浪费}}$

$\eta = \frac{\text{任务相关}}{\text{总量}}$ 。RLVR 的二值 verifier 是 $\pi$ -可测的（ $\eta = 1$ ），SFT 的实例级模仿额外花 $\log M$ bits 在 $M$ 个等价正确解中识别特定一个（ $\eta < 1$ ，且 $M$ 越大越低）。

具体数值感受：假设 5 种输出（3 对 2 错），高 meta-level 信号（对/错） $\eta = 1$ ，0.97 bits 全部任务相关；低 meta-level 信号（是否匹配标准答案 A） $\eta \approx 0.24$ ，0.72 bits 中只有 0.17 bits 任务相关，其余浪费在”A 还是 B 还是 C”上。 $M = 1000$ 时低 meta-level 每次观测只提供约 0.01 bits，几乎为零。

$\eta$ 视角下的四个现象#

噪声鲁棒性： $\pi$ -可测信号天然抗噪。一个具体的例子是 rubric-based RL 训练指令遵循，judge 的样本级一致性只有 24%，但训练仍然收敛。原因在于噪声被隔离在等价类内部，不同 rubric 项的翻转方向不一致，在梯度中互相抵消；类间信号（全部满足 vs 不全满足）方向一致，持续累积。

多样性 > 数量： $\pi$ -可测信号下，重复观测同一 (prompt, output) 对的信息增量严格为零，因为 $S$ 是 $(Q, [Y]_\pi)$ 的确定性函数。只有覆盖新 $\pi$ -block 的新 prompt 才有边际价值。对齐任务的 $\pi$ 只有少数几个 block（helpful / harmful / refusal），所以 1000 条多样化数据可以优于 10 万条重复数据。

跨域迁移：CoT 压缩的信号不绑定任何领域特征，只关心”保持正确的前提下输出有多长”，所以在数学上训练就能让代码、QA、agentic 对话的推理链都变短。JudgeRLVR 只用二值正确性训练数学 judge，结果自动迁移到所有领域，因为信号根本不包含领域信息，judge 只能学到跨领域通用的判断策略。泛化的本质就是正确地遗忘无关差异。

Reward hacking：模型优先收敛到 $\eta$ 最高的信号分量。一个典型的案例是 judge 训练中正例全来自某个长输出风格的模型，负例全来自短输出风格的模型，长度信号比正确性信号粒度更粗、更容易从表面统计中捕捉。judge 学会了区分长短而非对错，但从 chain-of-thought 里完全看不出异常，它仍然在”认真推理”数学。修复方法不是训练更久，而是让长度与正确性解相关，消除虚假信号的 $\eta$ 优势。

延伸思考：从信号效率到训练管道设计#

$\eta$ 框架给出了信号侧的解释，但没有讨论模型侧的对应效应。格式、长度这类粗信号之所以学得极快，恐怕不仅是 $\eta$ 高的缘故。模型在预训练阶段读过海量结构化文本，潜空间里对”格式""长度”已经有比较清晰的特征方向，RL 的 reward 只需要在已有方向上加推力就够了。而数学正确性这种细信号，很难对应潜空间中一个现成的简单方向，模型需要从大量样本中逐步构建对应的表示。如果这一点成立，粗信号学得快就有双重原因： $\eta$ 大（信号侧）和特征方向已经就绪（模型侧）。

另一个值得区分的是 $\eta$ 框架和课程学习。两者操作的轴是正交的： $\eta$ 管信号的粒度（反馈有多粗），课程学习管任务的难度（题有多难）。IMO 几何题只告诉你对错， $\eta = 1$ 但题极难，粗信号保证信息不浪费在无关区分上，但不保证模型能快速判断自己属于哪个等价类。课程学习解决的是另一半：当任务太难时，模型几乎所有探索都失败，有意义的梯度信号太稀疏。先在简单任务上积累基础能力，进入难任务时成功率才够高，信号密度才够用。两个维度的最优组合是粗粒度信号（高信号效率）叠加从易到难的排布（高信号密度）。

再看 RL 训练中多种 reward 之间的关系，格式、长度、正确性之间其实存在嵌套依赖：格式不对就无法评估内容，内容不正确就没法讨论效率。这个结构和算法竞赛的评测链很像——编译成功是答案正确的前提，答案正确是时间复杂度达标的前提。每一层都是上一层等价类内部的进一步细分，构成嵌套划分。按这个层级逐步引入 reward 分量，每个阶段在当前层级上保持 $\pi$ -可测（ $\eta = 1$ ），收敛后再引入下一层细分，这样每个阶段都没有信息浪费，上一阶段的能力自然构成下一阶段的基础。

这个嵌套结构对训练管道设计和论文写作都有实际用处。在提出某种方法来提高模型表现时，training details 部分如果能按嵌套划分的逻辑组织叙事——先说明用什么信号稳定了输出的基础结构，再说明在此之上引入什么信号学习核心能力，最后说明怎样用更细的信号做精调——读起来会比”我们同时使用了 X 和 Y reward”更有说服力。这不是拿来当理论贡献引用的，而是一种帮助把零散 trick 串成有逻辑的训练叙事的思考方式。