Knowledge Distillation和模型压缩

Date: 2019/08/18 Categories: 工作 Survey Tags: DeepLearningInference



NIPS2018的模型压缩workshop

Knowledge Distillation

Quantization

一般对于int8来说可以不需要原始训练数据得到接近的准确率, 但对更低进度比如int4或binary就需要原始数据了

Pruning

Conditional Computation

直接根据每一层做决策

一般是使用强化学习的方法, 优化一个序列决策问题, 将模型执行时间(可以是node数量或者估计的执行时间)和准确率/f1都考虑进损失函数中, 比如