貴大新聞網訊(計算機科學與技術學院)近日,我校計算機科學與技術學院(貴州保密學院)張永軍團隊在模式識別領域國際頂級期刊Pattern Recognition(中科院一區TOP期刊,模式識別與人工智能領域頂級期刊之一)上發表題為“Leveraging negative correlation for Full-Range Self-Attention in Vision Transformers”的學術論文,展現了團隊在模式識別和圖像處理領域的深厚學術積累與前沿創新能力。論文第一作者為2021級碩士研究生龍偉,通訊作者為張永軍老師,貴州商學院為共同單位。
自注意力機制在圖像分類、目標檢測和圖像分割等計算機視覺任務中具有重要作用,但現有方法在特征提取上仍存在一定局限性,主要表現為只能捕捉圖像中的正相關特征,忽略了特征之間的負相關性。這使得基于自注意力機制的深度學習模型在高維語義信息提取和特征區分上存在明顯不足,特別是在處理復雜對象特征時無法有效進行精準識別。此外,自注意力機制在反向傳播過程中容易出現梯度消失問題,從而影響模型優化,現有方法仍然存在注意力權重分布過于均勻導致特征區分度降低,不利于特征識別和提取。
針對這一難題,張永軍團隊創新性地提出了全范圍自注意力(FSA)方法,通過引入負相關特征,有效擴展了原有自注意力的相關性表示范圍。此方法能夠使模型能夠同時捕捉正向和負向的相關性特征,從而更精準地區分相關和無關的圖像特征。此外,該研究還創新性地設計了雙向注意力權重選擇(BAWS)策略,幫助模型在識別和聚焦最相關的特征的同時排除掉與任務無關的負相關性特征。此外,還通過引入注意力重分配連接(ARC),使得模型能夠動態調整注意力強度,優化特征聚合,避免梯度消失問題的發生。該方法能夠在不增加額外的計算開銷和參數量的情況下,顯著提升模型的特征提取能力和語義理解能力。
實驗結果表明,提出的全范圍自注意力在多個計算機視覺重要任務和先進模型中顯著提升了性能。在ImageNet-1K分類中,全范圍自注意力在不增加計算成本的情況下,大幅提高了多種Vision Transformer模型的準確性。在COCO目標檢測和實例分割中,由全范圍自注意力改進過后的方法檢測性能明顯優于原始的模型。在ADE20K語義分割任務中,引入全范圍自注意力后的方法在mIoU指標上提升了1.6%至2.4%。與現有注意力機制相比,全范圍自注意力的核心突破在于成功挖掘了長期被忽視的負相關性特征交互機制,在保持相同參數量和計算復雜度的基礎上,顯著提升了多個先進的Vision Transformer模型在多個計算機視覺基礎任務中的性能。
編輯:張蟬
責編:李旭鋒
編審:丁龍