网问答>>马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?
问题
已解决

马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?

时间:2025-12-01 06:29:15
马毅教授新作:白盒ViT成功实现「分割涌现」,经验深度学习时代即将结束?
最佳回答
马毅教授团队提出的白盒Transformer模型CRATE成功实现了分割涌现,这一成果引发了关于经验深度学习时代是否即将结束的讨论。CRATE的分割涌现能力研究人员通过大量实验证明,白盒Transformer模型CRATE在最小化监督训练配方下,能够出现整体和部分级别的分割属性。其设计明确模拟并追求数据分布中的低维结构,通过分层细粒度分析,证实了涌现属性与白盒网络设计数学功能的紧密关联。与DINO模型类似,CRATE的自注意力图可对应到输入图像的语义上,实现清晰的语义分割,而普通有监督ViT模型则未展示此类属性。CRATE的定量与定性评估定性评估方面,研究人员利用基于[CLS] token的注意力图方法对模型进行可视化分析,发现CRATE的查询-键-值矩阵相同,其自注意力图能清晰反映输入图像的语义分割,无需分割监督训练即可捕捉物体边界。定量评估则通过生成分割遮罩与真实遮罩对比,发现CRATE在视觉和mIoU评分上显著优于ViT,表明其内部表示更适用于分割任务。进一步采用MaskCut方法验证,CRATE在对象检测和细粒度分割指标上均优于有监督ViT,后者在某些情况下甚至无法产生分割遮罩。CRATE分割能力的白盒分析CRATE的每层设计均遵循优化稀疏速率降低、将token分布转化为紧凑结构化形式的理念。实验表明,随着深度增加,CRATE的分割性能逐步提升,深层表征更关注前景对象并捕捉纹理细节,而ViT的分割分数明显较低。熔化实验进一步证明,CRATE中的注意力块(MSSA)和MLP块(ISTA)设计显著优于ViT中的对应模块,仅替换注意力块即可显著提升ViT的粗分割性能,凸显了白盒设计的有效性。注意力头的语义属性识别CRATE模型中,[CLS] token与图像块token的自注意力图可生成清晰分段掩码。研究人员发现,不同注意力头能捕捉物体的不同部分或语义,例如部分注意力头可识别动物腿部或头部。这种将视觉输入解析为部分-整体层次结构的能力,自可形变部件模型和胶囊网络发布以来一直是识别架构的目标,而CRATE的白盒设计成功实现了这一能力。
时间:2025-12-01 06:29:17
本类最有帮助
Copyright © 2008-2013 www.wangwenda.com All rights reserved.冀ICP备12000710号-1
投诉邮箱: