团队成员关于零样本航空图像目标检测研究取得新进展,相关成果在AAAI上发表
近日,团队在零样本航空图像目标检测领域的研究上取得新进展,相关成果在AAAI Conference on Artificial Intelligence (AAAI-24) 上发表。AAAI24是人工智能领域的国际重要学术会议,被中国计算机学会推荐为A类学术会议。本届AAAI会议接收率约为23.75%。
论文“Zero-Shot Aerial Object Detection with Visual Description Regularization”入选AAAI2024,臧正卿、林辰宇同学为共同第一作者,王韬副研究员为通讯作者。论文提出了基于视觉增强语义向量的航空图像零样本目标检测方法,在语义空间与视觉空间投影的过程中保持了类间关系结构,实现了零样本目标设置下航空图像目标检测任务的新SOTA。
背景:
现有目标检测模型的性能主要依赖于大规模标注数据集下的训练。然而,为新的航空目标类别进行数据标注是一项昂贵的工作,因为它不仅耗时而且可能需要大量的专家知识。因此,零样本设定下的航空图像目标检测研究是一种适用于该场景的标注高效的研究方法。已有研究表明,利用目标类别在语义空间上的相关关系,可在视觉空间上实现目标检测能力在类别上的迁移。然而在航空图像的任务背景下,以往基于单词的语义向量所反映出的类间关系结构与视觉空间上的类间关系结构存在较大差异,从而会导致知识迁移过程中的性能下降。
论文:Zero-Shot Aerial Object Detection with Visual Description Regularization
方法概要:
我们提出了基于视觉增强正则化的零样本航空图像目标检测方法,并将其命名为DescReg。具体而言,我们首先生成了适用于航空图像的视觉增强语义描述,着重反映航空图像目标类别在形状、大小、外观上的类间关系,从而得到更易于在视觉空间进行知识迁移的语义向量。进一步地,基于该视觉增强语义向量所反映出的类间关系结构,我们优化了投影过程中所使用的三元组损失(Triplet loss)提出了基于相似度的自适应边距(Similarity-Based Adaptive Margin),使得不同空间的类间关系在投影过程中能够得到一致的约束,从而帮助可见类上的知识在未见类上更好地进行迁移。我们方法的整体架构如图1。
图1:所提出方法的整体架构
我们在DIOR、DOTA与xView三个航空图像数据集上进行了丰富的实验,在零样本设定(ZSD)和通用零样本设定(GZSD)上都取得了SOTA的结果,证明了方法的有效性。消融实验和自然图像的零样本目标检测任务上实验结果进一步验证了DescReg方法各组件的有效性及在零样本目标检测问题上的通用性。
图2:在DIOR数据集ZSD及GZSD设置下的实验结果
图3:在xView、DOTA数据集ZSD及GZSD设置下的实验结果
图4:消融实验结果
[1] Zhengqing Zang, Chenyu Lin, Chenwei Tang, Tao Wang and Jiancheng Lv. “Zero-Shot Aerial Object Detection with Visual Description Regularization” (2023). In Proceedings of the 38th AAAI Conference on Artificial Intelligence (AAAI’24), 2024
参会现场图片:
部分作者简介:
王韬,特聘副研究员,研究领域为计算机视觉、模式识别,在权威期刊和会议上发表论文近二十篇,包括 CVPR、ICCV、ECCV NeurIPS、IEEE TIP等。