基于深度卷积-Tokens降维优化视觉Transformer的分心驾驶行为实时检测

Zhao Xia,Li Zhao,Fu Rui,Ge Zhenzhen, Wang Chang

Automotive Engineering(2023)

引用 0|浏览1
暂无评分
摘要
针对基于端到端深度卷积神经网络的驾驶行为检测模型缺乏全局特征提取能力以及视觉Transformer(vision transformer,ViT)模型不擅长捕捉底层特征和模型参数量较大的问题,本文提出一种基于深度卷积和Tokens降维的ViT模型用于驾驶人分心驾驶行为实时检测,并通过开展与其他模型的对比试验、所提模型的消融试验和模型注意力区域的可视化试验充分验证了所提模型的优越性.本文所提模型的平均分类准确率和精确率分别为96.93%和96.95%,模型参数量为21.22 M,基于真实车辆平台在线推理速度为23.32 fps,表明所提模型能够实现实时分心驾驶行为检测.研究结果有利于人机共驾系统的控制策略制定和分心预警.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要