网问答>>李飞飞&DeepSeek都在用!模型蒸馏爆火!在CVPR上杀疯了...
问题
已解决

李飞飞&DeepSeek都在用!模型蒸馏爆火!在CVPR上杀疯了...

时间:2026-01-20 17:16:53
李飞飞&DeepSeek都在用!模型蒸馏爆火!在CVPR上杀疯了...
最佳回答
模型蒸馏是将大模型知识迁移到小模型的技术,能显著降低训练和部署成本,成为李飞飞团队低成本推理模型s1的核心技术,也贴合当下“技术普惠”趋势,在深度学习领域热度高且成熟度较高。 以下是一些前沿的模型蒸馏方法及创新点:Logit Standardization in Knowledge Distillation方法:提出了一种新的模型蒸馏方法,通过Logit标准化预处理,解决了传统蒸馏中教师和学生模型共享温度导致的Logit匹配问题,使学生模型能更好地学习教师模型的内在关系,显著提升了蒸馏性能。创新点:首次提出教师和学生在知识蒸馏过程中可以使用不同的温度值,而不必共享一个全局预定义温度。提出了一种Z-score逻辑标准化预处理方法,作为一种简单的插入式改进,能够显著提升现有逻辑值基础上的知识蒸馏方法的效果。Adversarial Diffusion Distillation方法:提出了一种名为ADD的模型蒸馏方法,将预训练的扩散模型转化为仅需1-4步采样即可生成高质量图像的快速模型。通过结合对抗训练和分数蒸馏损失,ADD在单步生成中超越了现有快速生成方法,并在四步内超过了其教师模型SDXL的性能。创新点:提出了一种名为对抗扩散蒸馏的方法,将预训练的扩散模型转化为快速、少步的图像生成模型。ADD实现了单步高质量图像生成,开启了基础模型在实时生成中的新可能性。研究中使用了冻结的预训练特征网络和一组可训练的轻量级判别器头,这种设计增强了生成模型的评估能力。PromptKD: Unsupervised Prompt Distillation for Vision-Language Models方法:提出了一种名为PromptKD的视觉-语言模型蒸馏方法,通过提示学习将大型教师模型的知识迁移到轻量级学生模型,利用无标注数据进行蒸馏,提升学生模型性能。创新点:提出了一个无监督的领域提示蒸馏框架(PromptKD),首次实现了在CLIP模型中通过无监督的方法进行领域特定的提示驱动知识蒸馏。利用CLIP独特的解耦模态特性,首次提出将预存的教师文本特征作为共享类向量,避免了文本分支的额外计算成本。Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models方法:提出了一种名为VPD的方法,将LLM的程序化推理能力蒸馏到VLM中。VPD通过生成多个候选程序,验证其正确性,并将正确的程序转化为自然语言推理步骤,最终将这些步骤蒸馏到VLM中,提升其推理能力。创新点:通过任务专属微调,实现了在所有基准上设定新的最先进状态,特别是在自由形式的视觉问答(VQA)任务中显著提高了模型性能。引入了一种通过大规模语言模型(PaLM-2)生成多样性程序的方法。VPD框架通过将大规模语言模型的推理能力与视觉工具的能力结合,合成训练数据以微调视觉语言模型(VLMs)。
时间:2026-01-20 17:16:54
本类最有帮助
Copyright © 2008-2013 www.wangwenda.com All rights reserved.冀ICP备12000710号-1
投诉邮箱: