监督信号的粒度与训练效率
从 DPI 和 η 框架理解合成数据为什么有时有效有时崩溃,以及监督信号的粗细如何决定训练效率、泛化能力和 reward hacking 风险。
问题的起点#
合成数据在 LLM 训练中的表现极度不一致:verifier 引导的管道能做到奥赛级数学和形式化证明,闭环自训练却反复导致 model collapse。数据处理不等式(DPI)可以给出统一解释,在此基础上进一步引入 meta-level / η 框架,就能刻画不同训练方法之间的效率差异。
这套分析的数学本身不难,价值在于 framing。闭环退化、RLVR 优于 SFT、噪声鲁棒性、多样性比数量重要、reward hacking,这些现象单独看都是已知的,但可以用一条信息论逻辑线把它们串起来,得到一个统一的解读框架。
核心逻辑链#
DPI:闭环必然退化#
DPI 可以用传话游戏来理解:信息经过一次加工只会保持或丢失,不会凭空增加。模型在自身输出上反复训练,如果没有外部信号进入,每轮就是一次传话:
I(X;Zt+1)≤I(X;Zt)∀t
X 是真实任务,Zt 是第 t 轮模型。最好的结果是信息持平,实际中有限采样和优化误差使不等式严格成立。Model collapse 是闭环信息循环的数学必然,不是 bug。
外部信号打破闭环#
成功的管道引入外部信号 S(verifier、编译器、固定 teacher),信息上界变成:
I(X;Zt+1)≤I(X;Zt)+I(X;S∣Zt)
I(X;S∣Zt) 是外部信号超出模型已知的额外任务相关信息。只要这一项为正,循环就可以持续改进。所以真正重要的区分不是数据是否”合成”,而是管道是 information-closed 还是 information-open。
这里有一个容易忽视的细节:随机性本身不注入信息,它只是生成多样化的候选池;外部信号才是过滤器,负责保留与任务对齐的候选。所以有效的合成管道本质上是 explore-then-select 循环,随机性负责探索,S 负责选择。反过来,如果信号与 student 共同演化(比如未校准的 judge 漂移),它就不再是真正的外部信号,循环会重新关闭。
η:信号效率的度量#
确认管道是 information-open 之后,下一个问题是效率:同样有外部信号,为什么有的方法效率差几个量级?可以用 η 来回答。
π(task-relevant partition)是从任务角度对输出空间做的等价类划分。用算法竞赛来类比:Special Judge 只检查答案是否满足约束,不关心具体是哪一组解,这就是 π-可测信号;diff 判定要求逐字符匹配标准答案,在”正确”这个等价类内部做了不必要的区分,所以不是 π-可测的。
分解定理把监督信号的总信息拆成两部分:
I(Y;S∣Q)=任务相关I([Y]π;S∣Q)+类内浪费I(Y;S∣[Y]π,Q)
η=总量任务相关。RLVR 的二值 verifier 是 π-可测的(η=1),SFT 的实例级模仿额外花 logM bits 在 M 个等价正确解中识别特定一个(η<1,且 M 越大越低)。
具体数值感受:假设 5 种输出(3 对 2 错),高 meta-level 信号(对/错)η=1,0.97 bits 全部任务相关;低 meta-level 信号(是否匹配标准答案 A)η≈0.24,0.72 bits 中只有 0.17 bits 任务相关,其余浪费在”A 还是 B 还是 C”上。M=1000 时低 meta-level 每次观测只提供约 0.01 bits,几乎为零。
η 视角下的四个现象#
噪声鲁棒性:π-可测信号天然抗噪。一个具体的例子是 rubric-based RL 训练指令遵循,judge 的样本级一致性只有 24%,但训练仍然收敛。原因在于噪声被隔离在等价类内部,不同 rubric 项的翻转方向不一致,在梯度中互相抵消;类间信号(全部满足 vs 不全满足)方向一致,持续累积。
多样性 > 数量:π-可测信号下,重复观测同一 (prompt, output) 对的信息增量严格为零,因为 S 是 (Q,[Y]π) 的确定性函数。只有覆盖新 π-block 的新 prompt 才有边际价值。对齐任务的 π 只有少数几个 block(helpful / harmful / refusal),所以 1000 条多样化数据可以优于 10 万条重复数据。
跨域迁移:CoT 压缩的信号不绑定任何领域特征,只关心”保持正确的前提下输出有多长”,所以在数学上训练就能让代码、QA、agentic 对话的推理链都变短。JudgeRLVR 只用二值正确性训练数学 judge,结果自动迁移到所有领域,因为信号根本不包含领域信息,judge 只能学到跨领域通用的判断策略。泛化的本质就是正确地遗忘无关差异。
Reward hacking:模型优先收敛到 η 最高的信号分量。一个典型的案例是 judge 训练中正例全来自某个长输出风格的模型,负例全来自短输出风格的模型,长度信号比正确性信号粒度更粗、更容易从表面统计中捕捉。judge 学会了区分长短而非对错,但从 chain-of-thought 里完全看不出异常,它仍然在”认真推理”数学。修复方法不是训练更久,而是让长度与正确性解相关,消除虚假信号的 η 优势。
延伸思考:从信号效率到训练管道设计#
η 框架给出了信号侧的解释,但没有讨论模型侧的对应效应。格式、长度这类粗信号之所以学得极快,恐怕不仅是 η 高的缘故。模型在预训练阶段读过海量结构化文本,潜空间里对”格式""长度”已经有比较清晰的特征方向,RL 的 reward 只需要在已有方向上加推力就够了。而数学正确性这种细信号,很难对应潜空间中一个现成的简单方向,模型需要从大量样本中逐步构建对应的表示。如果这一点成立,粗信号学得快就有双重原因:η 大(信号侧)和特征方向已经就绪(模型侧)。
另一个值得区分的是 η 框架和课程学习。两者操作的轴是正交的:η 管信号的粒度(反馈有多粗),课程学习管任务的难度(题有多难)。IMO 几何题只告诉你对错,η=1 但题极难,粗信号保证信息不浪费在无关区分上,但不保证模型能快速判断自己属于哪个等价类。课程学习解决的是另一半:当任务太难时,模型几乎所有探索都失败,有意义的梯度信号太稀疏。先在简单任务上积累基础能力,进入难任务时成功率才够高,信号密度才够用。两个维度的最优组合是粗粒度信号(高信号效率)叠加从易到难的排布(高信号密度)。
再看 RL 训练中多种 reward 之间的关系,格式、长度、正确性之间其实存在嵌套依赖:格式不对就无法评估内容,内容不正确就没法讨论效率。这个结构和算法竞赛的评测链很像——编译成功是答案正确的前提,答案正确是时间复杂度达标的前提。每一层都是上一层等价类内部的进一步细分,构成嵌套划分。按这个层级逐步引入 reward 分量,每个阶段在当前层级上保持 π-可测(η=1),收敛后再引入下一层细分,这样每个阶段都没有信息浪费,上一阶段的能力自然构成下一阶段的基础。
这个嵌套结构对训练管道设计和论文写作都有实际用处。在提出某种方法来提高模型表现时,training details 部分如果能按嵌套划分的逻辑组织叙事——先说明用什么信号稳定了输出的基础结构,再说明在此之上引入什么信号学习核心能力,最后说明怎样用更细的信号做精调——读起来会比”我们同时使用了 X 和 Y reward”更有说服力。这不是拿来当理论贡献引用的,而是一种帮助把零散 trick 串成有逻辑的训练叙事的思考方式。
部分内容可能已过时