我中心在多模态/多视图学习研究中取得新进展,相关成果发表于ICML,IJCAI及AAAI
我中心人工智能方向2023级硕士研究生戴豪与苏鹏、2022级硕士研究生蔡和城与谭雨泽的四篇论文分别在International Conference on Machine Learning (ICML-24)、International Joint Conference on Artificial Intelligence (IJCAI-24)及Association for the Advancement of Artificial Intelligence(AAAI-24)接收,指导老师是我中心吕建成教授团队青年教师黄树东副教授。
2023级硕士研究生戴豪为第一作者,黄树东副教授为通讯作者,录用的ICML论文“Multi-view Clustering by Inter-cluster Connectivity Guided Reward”提出了一个适用于多视图数据的奖励函数,能够在无监督场景下依靠簇间连通性对簇的数目进行推断。
2023级硕士研究生苏鹏为第一作者,黄树东副教授为通讯作者,录用的IJCAI论文“Robust Contrastive Multi-view Kernel Clustering” 提出了一种新的鲁棒对比多视图学习方法,称为R-CMK。R-CMK结合了一种抗噪对比损失,以减轻在构建样本对的过程中引入的错误负对(FNPs)的影响。
2022级硕士研究生蔡和城为第一作者,黄树东副教授为通讯作者,录用的IJCAI论文“With a Little Help from Language: Semantic Enhanced Visual Prototype Framework for Few-Shot Learning”提出了一个即插即用的小样本学习框架,在预训练阶段提前引入语义知识并引入了一种简单有效的语义与视觉对比损失,在三种主流的小样本数据集上进行实验并取得了良好的结果。
2022级硕士研究生谭雨泽为第一作者,黄树东副教授为通讯作者,录用的AAAI论文“An Effective Augmented Lagrangian Method for Fine-grained Multi-view Optimization”提出了一种高效的增强拉格朗日方法,并基于此设计了细粒度多视图优化算法。
论文1: Multi-view Clustering by Inter-cluster Connectivity Guided Reward
背景:多视图聚类方法近年来取得了长足的进步,但这些方法大多数是参数化的,要求输入预定义的聚类数量。一种可行的方法是将簇的数目K的决策问题转化为一种强化学习的范式。然而,将传统的强化学习方法结合到多视图学习任务中仍然存在问题。首先,它需要额外的邻接矩阵作为输入。此外,定义奖励Rk为每个K的簇内平方和在现有的很多多视图聚类方法中表现不佳。为克服这些挑战,本文提出了一种新颖的多视图聚类算法,该算法利用简约的强化学习范式来自动推断K并在每次迭代过程中启发式地进行聚类。
创新:在无监督学习中,很难判断给定K下的聚类结果是否失真,本文提出用簇间连通性来表示聚类结果的最优性,即基于如下假设:最优的K应该保持最小的簇间连通性,而不正确的K会显著增加簇间连通性,因此可以通过找到其呈现的最小连通性来推断K。本文使用互邻居算法为每个视图构建图Gv,并通过视图投票获取最真实信息的共识图G。在每次迭代之后,使用G和指示矩阵Y计算簇间连通性以获得与不同K相关的即时奖励Rk。本文提出的奖励有两个主要优点。首先,作为一个非稀疏奖励,其不需要使用经验回放来加速较为缓慢的强化学习;其次,我们观察到随着聚类指示矩阵的收敛,这一奖励趋于稳定。因此,我们只需建模一个简约的强化学习范式就足以解决该决策问题。
实验:本文在多个多视图数据集上验证了所提出方法的有效性,并且对所提出的簇间连通性的奖励进行了验证。从t-SNE的可视化结果可以看出,在手写数据集下K=10是正确的簇数,相应的簇间连通性最小,K=2和K=19可以看做两种较极端的错误K值的情况,相应的簇间连通性较大。图5 (d) 展示了不同K取值下真实的奖励,可以看出奖励分布符合多臂赌博机对奖励平稳的假设,此外,K=10确实对应着最大的真实奖励,验证了本文提出的假设。
总结:本文主要研究了多视图学习下如何自动推断未知类别数的问题,提出了一种基于强化学习的方法,并能够独立于多视图聚类算法对类别数进行推理。与传统方法不同,该方法通过定义簇间连通性作为每一轮次奖励,鼓励最小化簇间连通性来寻找正确的类别数。同时,通过验证奖励分布的平稳性从而化简强化学习范式。这一创新方法有望在无参数的条件下为多视图学习领域带来更准确的聚类结果。
论文2:Robust Contrastive Multi-view Kernel Clustering
背景:多视图核聚类 (MKC)方法的聚类结果对所构建核的质量高度敏感。在以往的对比多视图核学习中,目标是在核构建过程中使同一样本的跨视图实例靠近,同时将不同样本的实例分开,以实现跨视图信息的综合整合。然而,其固有的缺点是在训练过程中可能不恰当地放大同一簇中不同实例(即错误负对)的距离,导致类间可辨识性降低。
创新:本文提出了一种针对错误负对的鲁棒对比多视图核学习方法(R-CMK)。该方法根据距离或相似性将负对分为不同的区间,并对错误负对反转其优化梯度。这样有效避免了错误负对距离的进一步放大,同时将真正的负对推得更远。总体而言,本文的贡献有:(1)提出了一种新的鲁棒对比多视图学习方法R-CMK。本方法结合了一种抗噪对比损失,帮助减轻或消除在构对过程中引入的错误负对(FNPs)的影响。(2)可以作为即插即用的组件应用于现有的多视图核学习方法,有效提升构建核的质量。
实验:在多个数据集上使用六种最新的多核聚类方法进行的实验表明,R-CMK可以有效提高聚类的质量。
总结:本文提出了一种针对假负对的鲁棒多视图核构造方法。该方法通过评估负对之间的相似性来识别潜在的假负对。在基于梯度下降的优化过程中,专门针对假负对反转优化梯度,有效地缩小它们之间的距离。综合实验结果表明,我们提出的方法显著提高了构造核的质量,从而显著提升了多视角核聚类的性能。
论文3:With a Little Help from Language: Semantic Enhanced Visual Prototype Framework for Few-Shot Learning
背景:小样本学习旨在通过模仿人类能够从少量示例中快速学习新概念的能力。原型(Prototypes)是一种重要的概念,特别是在原型网络(Prototypical Networks)方法中。其核心思想是通过学习一个嵌入空间(embedding space),在这个空间中,每个类别的样本被聚集在它们的原型周围,而这个原型是该类别所有样本特征表示的均值向量。基于原型的方法使用视觉特征提取器的原型作为分类器权重,性能取决于原型的质量。由于不同类别的视觉特征可能相似,导致视觉原型存在局限性。这是因为现有方法在训练前阶段只学习一个简单的视觉特征提取器,而忽略了构建良好的特征空间对原型的重要性。
实际场景下可能会有类别在视觉特征空间中较为相似,使得依赖视觉特征的原型易混淆。因此,有必要研究将语义信息引用原型学习,以提升易混淆原型之间的辨别性。如上图所示,鸡蛋和乒乓球可能具有相似的视觉特征。但是,它们具有不同的语义特征。
创新:相较于在小样本学习阶段使用语义信息来微调原型,本文提出了一个即插即用的框架,在预训练阶段提前引入语义知识。这种方法有助于构建更分散的嵌入空间。对比损失使特征提取器能够从视觉和语义方面学习。在这种情况下,语义知识可以提供强大的先验知识支持来促进学习并帮助促进原型之间的独特性。通过高质量的嵌入空间,可以将更好的知识从基类转移到新类。通过在训练前阶段结合语义知识来增强特征提取器,本文能够高质量的表征生成更高质量的原型并促进学习新类。本文还设计了一种简单有效的语义和视觉对比损失,利用语义表示在嵌入空间中视觉特征之间取得更出色的辨别性。整体模型框架如下图所示:
实验:本文在三种主流的小样本学习数据集上进行实验,miniImageNet, tieredImageNet and CIFAR-FS。同时进行了消融实验效果对比了SEVPro结合ProtoNet和SEGA的效果。
总结:该工作研究了小样本学习领域中,使用卷积神经网络(CNN)直接提取视觉特征时出现的可混淆性问题。针对此问题,本研究提出了一种创新的方法,即在预训练阶段整合语义信息,并通过对比学习策略来优化特征空间,以获得更具有区分度的特征表示。该方法强调了在语义信息的辅助下,对特征原型中的关键特征进行突出,从而增强了模型对小样本数据的学习能力。此外,本研究提出的这一即插即用型方法具有广泛的适用性,能够与现有的基于原型的学习方法无缝集成,为小样本学习领域的进一步研究提供了新的视角和启发。
论文4:Metric Multi-view Graph Clustering
背景:大多数现有方法不加区别地为数据点分配视图权重,这不可避免地忽视了不同视图对每个单独样本贡献的不同,从而忽略了数据集中蕴含的丰富样本级结构信息。近年来有部分工作注意到了这方面的缺陷,并展开了相应的研究。然而,这些方法在涉及细粒度融合的优化算法中,都不可避免地引入了一个不可解释的中间变量。因此,本文提出一个具有可解释性的样本级细粒度融合策略,能够无缝地整合样本级图融合和多视图子空间聚类。
创新:本文提出了一种高效的增强拉格朗日方法(ALMOND),并用于细粒度多视图优化算法。与简单地将多样化信息按视图整合不同,后者可能导致冗余信息的重叠,进而削弱共享聚类结构的精确性。本文则采用了更为细粒度的优化策略,深入探索了视图信息在样本级别的交集。此外,本文还在模型中引入了有效的增强拉格朗日方法,确保模型中不引入任何无法解释的中间变量,从而保证了模型的可解释性。
实验:部分实验结果如下图所示,展示了本文方法的有效性和鲁棒性。
总结:本文提出了一种基于增强拉格朗日算法的细粒度多视图优化方法。与传统方法不同,ALMOND在样本级别深入探索多个视图的交集,显著提升了跨视图一致性的保持。同时,通过引入有效的增强拉格朗日方法,确保模型的可解释性,克服了需引入无法解释的中间变量这一问题,获得了更精确的聚类结果。
注:ICML是由国际机器学习学会(IMLS)主办的年度机器学习国际重要学术会议之一,是中国计算机学会A类推荐国际学术会议(CCF-A)。IJCAI是人工智能领域中历史最悠久的学术会议及最顶尖的学术会议之一,被誉为“人工智能界的奥林匹克”,是中国计算机学会A类推荐国际学术会议。AAAI是人工智能领域的国际重要学术会议之一,也是中国计算机学会A类推荐国际学术会议。
学生简介:
戴豪,四川大学计算机学院(软件学院、智能科学与技术学院)人工智能系2023级硕士研究生。研究方向为多模态学习、强化学习。目前已发表CCF-A类会议ICML论文一篇。
苏鹏,四川大学计算机学院(软件学院、智能科学与技术学院)人工智能系2023级硕士研究生。研究方向为多模态学习、对比学习。目前已发表CCF-A类会议IJCAI、ICML等多篇论文。
蔡和城,四川大学计算机学院(软件学院、智能科学与技术学院)人工智能系2022级硕士研究生。研究方向为多模态学习、终身学习、小样本学习。目前已发表CCF-A类会议IJCAI、ICML、AAAI、ACMMM等多篇论文、申请专利2项。获2023年度华为奖学金。
谭雨泽,四川大学计算机学院(软件学院、智能科学与技术学院)人工智能系2022级硕士研究生。研究方向为多模态学习、表示学习。目前已发表CCF-A类会议IJCAI、CVPR、AAAI、ACMMM等多篇论文、申请专利3项。获2023年度国家奖学金。
指导老师简介:
黄树东,四川大学计算机学院(软件学院,智能科学与技术学院)副教授,博导。中国计算机协会、中国图象图形学学会、中国人工智能学会会员,《工程科学与技术》期刊专栏副主编。研究领域为人工智能、机器学习、数据挖掘;主要研究方向为无监督机器学习算法、图像处理、多源异构数据挖掘、深度学习及其应用研究等。在IEEE TKDE、IEEE TNNLS、IEEE TCYB、NeurIPS、CVPR、ICML、IJCAI、AAAI、ACM MM等本领域国际顶级期刊和会议上发表一作/通讯作者论文近五十篇,其中多篇入选ESI全球高被引论文、四川省计算机学会年度优秀论文奖等、获国家发明专利近十项。主持多项国家自然科学基金及省部级重点研发项目等。(曾)担任多个国际顶级会议的程序委员会(高级)委员和期刊审稿人。
参考文献:
[1] Hao Dai, Yang Liu, Peng Su, Hecheng Cai, Shudong Huang*, and Jiancheng Lv. Multi-View Clustering by Inter-cluster Connectivity-Guided Reward. In: Proceedings of the 41st International Conference on Machine Learning (ICML’24), Vienna, Austria, 2024.
[2] Peng Su, Yixi Liu, Shujian Li, Shudong Huang*, and Jiancheng Lv. Robust Contrastive Multi-view Kernel Clustering. In: Proceedings of the 33rd International Joint Conference on Artificial Intelligence (IJCAI’24), Jeju, South Korea, 2024.
[3] Hecheng Cai, Yang Liu, Shudong Huang*, and Jiancheng Lv. With a Little Help from Language: Semantic Enhanced Visual Prototype Framework for Few-Shot Learning. In: Proceedings of the 33rd International Joint Conference on Artificial Intelligence (IJCAI’24), Jeju, South Korea, 2024.
[4] Yuze Tan, Hecheng Cai, Shudong Huang*, Shuping Wei, Fan Yang, and Jiancheng Lv. An Effective Augmented Lagrangian Method for Fine-grained Multi-view Optimization. In: Proceedings of the 38th AAAI Conference on Artificial Intelligence (AAAI’24), Vancouver, Canada, 2024, pp: 15258-15266.