Vision Backbone Enhancement via Multi-Stage Cross-Scale Attention

Shang, Liang; Liu, Yanli; Lou, Zhengyang; Quan, Shuxue; Adluru, Nagesh; Guan, Bochen; Sethares, William A.

Computer Science > Computer Vision and Pattern Recognition

arXiv:2308.05872 (cs)

[Submitted on 10 Aug 2023 (v1), last revised 14 Aug 2023 (this version, v2)]

Title:Vision Backbone Enhancement via Multi-Stage Cross-Scale Attention

Authors:Liang Shang, Yanli Liu, Zhengyang Lou, Shuxue Quan, Nagesh Adluru, Bochen Guan, William A. Sethares

View PDF

Abstract:Convolutional neural networks (CNNs) and vision transformers (ViTs) have achieved remarkable success in various vision tasks. However, many architectures do not consider interactions between feature maps from different stages and scales, which may limit their performance. In this work, we propose a simple add-on attention module to overcome these limitations via multi-stage and cross-scale interactions. Specifically, the proposed Multi-Stage Cross-Scale Attention (MSCSA) module takes feature maps from different stages to enable multi-stage interactions and achieves cross-scale interactions by computing self-attention at different scales based on the multi-stage feature maps. Our experiments on several downstream tasks show that MSCSA provides a significant performance boost with modest additional FLOPs and runtime.

Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2308.05872 [cs.CV]
	(or arXiv:2308.05872v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2308.05872

Submission history

From: Liu Yanli [view email]
[v1] Thu, 10 Aug 2023 22:57:31 UTC (8,859 KB)
[v2] Mon, 14 Aug 2023 18:27:12 UTC (9,469 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Vision Backbone Enhancement via Multi-Stage Cross-Scale Attention

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Vision Backbone Enhancement via Multi-Stage Cross-Scale Attention

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators