基于ViT的细粒度图像分类

LI Jia-ying,JIANG Wen-ting,YANG Lin,LUO Tie-jian

Computer Engineering and Design（2023）

引用 0|浏览6

暂无评分

摘要

为解决细粒度图像分类任务存在类内差异性和类间相似性大的问题,提出一种基于Vision Transformer(ViT)的细粒度图像分类方法.采取ViT作为特征编码网络,获取图像的全局特征表示;设计多级区域选择模块,捕捉细微的具有可判别性的层级化信息;利用一个简单且有效的中心损失函数,缩短深层特征与相应类中心在特征空间中的距离.在图像级标签的监督下,实现端到端的训练.结果在CUB-200-2011、NABirds以及Stanford Cars数据集上分别达到90.1％、90.2％和93.7％的分类准确率,超越当前最优算法.

关键词

fine-grained visual classification,transformer,attention mechanism,metric learning,convolutional neural network,feature representation,feature space

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要