基于弱监督的改进Transformer在人群定位中的应用

Computer Engineering and Applications(2023)

引用 0|浏览0
暂无评分
摘要
针对现有人群定位方法采用伪边界框或预先设计的定位图,需要复杂的预处理和后处理来获得头部位置的问题,提出一种基于弱监督的端到端人群定位网络LocalFormer.在特征提取阶段,将纯Transformer作为骨干网络,并对每个阶段的特征执行全局最大池化操作,提取更加丰富的人头细节信息.在编码器-解码器阶段,将聚合特征嵌入位置信息作为编码器的输入,且每个解码器层采用一组可训练嵌入作为查询,并将编码器最后一层的视觉特征作为键和值,解码后的特征用于预测置信度得分.通过二值化模块自适应优化阈值学习器,从而精确地二值化置信度图.在不同数据环境下对三个数据集进行实验,结果表明该方法实现了最佳定位性能.
更多
关键词
crowd localization,weakly supervised,convolutional neural network(CNN),global max pooling(GMP),vision Transformer(ViT)
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要