Regularizing Class-wise Predictions via Self-knowledge Distillation 理解了什么是知识蒸馏就能理解这篇文章的意义。知识蒸馏一般用于教师-学生网络,也就是说,在分类任务下,有一个训练得很完善的网络,对某一个样本输出logit值向量,利用这个logit值向量来监督一个学生网络,从而达到比gt label的one-hot监督更好的监督效果。而本文提出的叫自知识蒸馏,也就是利用网络自身的logit值来监督自身,是对同类的不同样本而言的。