摘要:在传统的知识蒸馏中,若教师、学生模型的参数规模差距过大,则会出现学生模型无 法学习较大教师模型的负面结果。为了获得在不同任务上均拥有较好表现的学生模型,深入研 究了现有的模型蒸馏方法、不同教师模型(试读)...