追求概率《质量的帕》累托:最优 广义αβ散度引导知识蒸馏框、架ABKD
知识蒸馏(KD)是一种将大模型(教师)的知识迁移到小模型(学生)的技术,学生通过模仿教师预测分布,充分利用软标签信息,通常优于传统监督微调,已在图像分类、文本生成等任务及最新工作(如 DeepSeek-R1、Qwen-3)中得到验证。其核心在于分布匹配方式的选择,主流方法多用前向 KL 散度(FKLD)或反向 KL 散度(RKLD),但 FKLD 易导致输出过度平滑,难以聚焦关键类别,RKLD 则使学生过度自信、降低多样性。实验证明,两者在多任务中表现有限,且目前缺乏系统方法揭示其深层问题,阻碍了更通用高效 KD 框架的发展。因此,一个自然的问题产生了:
究竟是什么潜在因素导致了 FKLD 和 RKLD 的次优表现?
为了解答这个问题,我们通过追踪对数质量比(LogR),分析不同散度在训练中如何影响学生分布的概率分配。进一步分析表明在温和假设下,LogR 与损失函数对 logits 的梯度成正比,这使我们将问题转化为分析:不同散度算法如何影响 ∣LogR∣ 下降。
标题:ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence
论文:https://arxiv.org/abs/2505.04560
代码:https://github.com/ghwang-s/abkd
在此框架下,我们识别出两种关键的「模式集中效应」:难度集中与置信集中。
「难度集中」指的是更关注于在教师分布 p 与学生分布 q 之间误差较大的模式。
「置信集中」指的是更关注于学生分布 q 本身高度自信的模式。
进一步研究发现,FKLD 和 RKLD 的局限性正源于对这两种集中效应的极端利用。
FKLD 集中效应较弱,对所有类别误差一视同仁,导致学生难以聚焦目标类别,易出现错误预测(见图 1d)。
RKLD 集中效应过强,兼顾高误差和高置信度类别,易陷入「平凡解」,即学生只关注目标类别,忽略教师分布的其他知识(见图 1e)。
揭示这些局限性后,我们提出一个关键问题:我们能否找到一种通用且理论上有依据的方法,来平衡「难度集中」与「置信集中」效应?
方法
为此,我们引入了 α-β 散度。
其广义统一了 FKLD、RKLD 及 Hellinger 距离等多种散度。
正如下一节理论表明,α-β 散度可通过调节 α 和 β 在 FKLD 与 RKLD 间平滑插值,实现对难度集中和置信集中效应的灵活权衡。这一机制带来更合理的概率分配,据此我们提出了通用蒸馏框架 ABKD,形式为最小化:
基于 α-β 散度平衡难度集中和置信集中
ABKD 提供了一个统一空间权衡难度集中与置信集中。为解释这一点,回到对数质量比(LogR)。下列命题解释了超参数 α 和 β 如何影响 ∣LogR∣ 的减小。
当 β→1 时,退化为 RKLD 的效应。
当 β→0 时,退化为 FKLD 的效应。
较大的 β 值会增强置信集中效应,使匹配性能更加专注于模型最有信心的类别(见图 1c)。
在 (b) 和 (b1) 中,使用以下方式衡量难度集中效应:
当 α→1 时,退化为 FKLD 的效应。
当 α→0 时,退化为 RKLD 的效应。
较小的 α 会放大难度集中效应,在困难类别上进行更强的误差惩罚,从而实现更激进的匹配(见图 1b)。
通过调节 α 和 β,ABKD 实现对两种效应的精细平衡,避免了传统方法(FKLD/RKLD)的极端情况(见图 1g)。
与 α-散度的比较
α-散度是 ABKD 框架的一个特例(当 β=1−α 时成立)。
虽然它也能实现 FKLD(α→1)和 RKLD(α→0)之间的转换,但根据命题 4.2,为了减小 α,必须相应地增大 β,以满足 α+β=1 的限制条件。这种不必要的限制阻碍了其性能的进一步提升,具体如图 1(a) 和图 1(f) 所示。
与WSD的比较
另一种方案是对 FKLD 和 RKLD 取加权和(WSD):
不幸的是,这种组合度量会过度强调 p 和 q 中概率较小的模式。当 q(k)≈0,p(k)>0 或 p(k)≈0,q(k)>0 时,有:
因此,算法必须关注极端情况以最小化目标函数,导致概率分配不合理。此外这种情况下梯度范数也会过度增长,导致参数更新中可能含有噪声,破坏优化稳定性。
最后一种方法是使用 Jensen-Shannon 散度:
其中 m=(p+q)/2。它的缺点是当分布 p 和 q 相距较远时(这是训练初期的常见情况),会出现梯度消失,阻碍模型收敛。
实验
自然语言任务
我们在五个指令跟随基准上评估方法,使用 ROUGE-L 指标,对比了 SFT、FKLD、GKD 和 DISTILLM 等方法。
实验结果表明仅修改蒸馏目标,ABKD 在不同数据集上均优于或匹配 FKLD、SFT。对比基于 SGO 的方法(如 GKD、DISTILLM)效果提升明显,ABKD 在不公平对比下依然表现优越。
损失函数影响
α-β 散度优于 α 或 β 散度及 WSD。在五个数据集上相较基线有稳定提升。训练过程中的优势也体现在图 2。
视觉任务
在 12 个常用图像识别数据集上进行实验,对比方法比较了多种先进蒸馏方法:KD、DKD、LSD 和 TTM 等。
结果表明 ABKD 能根据不同教师-学生组合自动选择合适的蒸馏目标。此外 ABKD 可作为简单的插件工具,优化现有方法的损失函数,带来额外性能提升。
敏感性分析
α 对难度集中的影响:图 6(a)(b) 展示了不同 α 下的训练表现。在 CIFAR-100 中,较小 α 提升有限;在 Dolly 等大输出空间任务中,适当减小 α 有助于避免陷入局部最优。
β 对置信集中的影响:图 6(c)(d) 显示了 β 对输出分布的 Shannon 熵和 Self-BLEU 的影响。较小 β 使模型更关注低置信度类别,提升输出分布的平滑性和多样性(熵更高,Self-BLEU 更低)。
结语
本文指出,知识蒸馏的核心在于平衡「难度集中」和「置信集中」两种效应,而传统 FKLD 和 RKLD 只覆盖两个极端,导致概率分配不合理。为此,我们提出基于 α-β 散度的 ABKD 框架,统一并推广了现有方法,实现两种效应的灵活权衡。理论与大量实验均验证了 ABKD 的有效性。
绝世高手境界等级划分详细
神墓:凡人、一阶、二阶、三阶、四阶、五阶(绝世高手)、六阶(武者:真武境界)、七阶(可武破虚空,成仙)、神王、神皇、天阶、逆天级。长生界:蜕凡、识藏、御空、涅槃、长生、鱼跃、至人、彻地、通天(半祖)祖神、无上祖神(石人)石人王、皇或帝 不死不灭:三流、二流、一流、超一。;小说神墓修为的等级划分:一阶、二阶、三阶、四阶、五阶(绝世高手)、六阶(真武)、七阶(仙武)、神王、神皇、天阶(初级)、天阶中级、天阶绝巅、战魂(图腾战魂)、小六道主(魔主)、逆天级、天道。巨龙:地龙、飞龙、亚龙、巨龙、圣龙、神龙、天龙。《神墓》为著名网络小说作者辰东的成名作,。。
小说神墓修为的等级划分:一阶、二阶、三阶、四阶、五阶(绝世高手)、六阶(真武)、七阶(仙武)、神王、神皇、天阶(初级)、天阶中级、天阶绝巅、战魂(图腾战魂 )、小六道主(魔主)、逆天级、天道。巨龙:地龙 、飞龙 、亚龙 、巨龙 、圣龙 、神龙、 天龙。《神墓》为著名网络小说作者辰东。;神墓中修炼内天地首先就是修炼者的划分大致分为东方修道者、东方武者、魔法师、西方武者,而西方武者里面还有一个很特殊的修炼者:龙骑士,这些不同种类修炼者的境界在前期都可划分为五个等阶。
每个职业的等级划分都是一样的从低到高:一般修炼者,一阶、二阶、三阶 四阶 五阶(绝世高手)(辰南在这时修出了内天地) 六阶(武者:真武境界) 七阶(可武破虚空,成仙、一般的仙、神)、神王、神皇、天阶、逆天阶、 龙:地龙 飞龙 亚龙 巨龙 圣龙 神龙 天龙(说明一下,天龙皇不是等级,。;武侠小说中的化境,直译即达到超凡入圣的奇妙境地,象征着武学修炼的巅峰。它超越了世间的顶尖高手,被誉为绝世高手。这个境界因时代不同而有所差异,在武学昌盛的时代,才可能出现这样的人物。然而,当武学衰落时,这样的境界便难以觅得。武者的等级划分大致如下:后天、先天、宗师、大宗师、武道。。
人间初始一阶 二阶 三阶 四阶 五阶(绝世高手)(辰南在这时修出了内天地) 六阶(武者:真武境界) 七阶(可武破虚空,成仙) 神王 (辰南这时借助辰家八魂修出天界肉身,斗太古君主,打造凶兵) 神皇 天阶 逆天阶 。;一阶、二阶、三阶、四阶、五阶(绝世高手)、六阶(真武)、七阶(仙武)、神王、神皇、天阶(初级)、天阶中级、天阶绝巅、战魂(图腾战魂 )、小六道主(魔主)、逆天级、天道 《神墓》为著名网络小说作者辰东的成名作,首发于起点中文网。是其处女作《不死不灭》的续集。该书以主角辰南寻找万年。。
绝世高手陈扬:女主不少,有司徒灵儿,沈墨侬,白素贞,洛宁(阵亡)乔凝,还有个陈菲蓉。记不清了,境界:主角开始是化劲,然后是金丹,化神,神通一到九重,长生一到九重,太虚一到十重天,虚仙,洞仙,天宇,天位,造物镜一到九重天,后面还有啥圣人的记不清了。小说的作者是问鼎,而小说里面的主角叫。。
消息称三星SDI获得特斯拉电池订单 但并不是用于电动汽车济南华为交换机专卖华为S1730S-L24T-A1热销宋亚轩中学时期合照长期睡眠不足的人有7个表现那英宋佳现身东极岛首映礼人民日报:国足痛失提前出线机会 平局难以接受华为Mate 70 Air发布:最轻薄Mate,麒麟双芯+6500mAh续航跨界加密货币!贾跃亭造车有了新故事张新任国家大基金董事长麒麟9020A / B两款CPU可选 华为Mate 70 Air正式开启预售:4199元起(内容来源:房财经)
作者: 编辑:陈梦洁
越牛新闻客户端
越牛新闻微信
绍兴发布微信
越牛新闻微博
绍兴发布微博
新闻热线
0575-88880000
投稿信箱
zjsxnet@163.com