新闻动态

CVPR 2025接收我中心小样本生成对抗网络研究新成果

近日,我中心在小样本图像生成研究领域取得重要进展,相关成果被国际计算机视觉与模式识别会议(The IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2025)录用。CVPR是计算机视觉领域的国际顶级会议,被中国计算机学会推荐为A类学术会议,本届CVPR会议竞争激烈,接收率仅为22.1%。

论文“Style Quantization for Data-Efficient GAN Training”(以下简称SQ-GAN)由我中心吕建成教授团队完成,2021级博士研究生王坚和2022级硕士研究生兰鑫为共同第一作者,吕建成教授为通讯作者。论文提出了一种基于代理空间量化和初始化的小样本生成对抗网络训练方法,用于在数据有限的情况下提高GAN系列模型的训练稳定性和生成质量,为解决生成模型在有限数据的应用场景中的问题提供了新的思路。

背景:

目前图像生成模型在图像合成、风格迁移等任务中展现了卓越能力,但其训练高度依赖大规模高质量数据。在医疗影像重建、文化遗产修复等数据稀缺场景中,对抗式生成图像模型(GAN)展现了潜力。传统GAN常因对先验空间探索不足导致采样后生成的图像质量不稳定,且相邻采样的变量生成的图像差异显著。现有方法虽通过数据增强或正则化缓解过拟合,但仍面临语义失真、生成多样性受限等问题。研究团队提出通过在先验空间的基础上构造一个代理的风格空间,并通过代理空间量化技术和基于最优传输的语义对齐方法将原始的先验空间投射到一个更加结构化和具有丰富语义的代理空间上,为小样本生成任务提供新的解决方案。

图1:风格量化生成对抗网络(Style Quantization GAN, SQ-GAN)原理示意图

 方法与创新:

传统GAN模型在数据受限时难以有效探索连续的先验空间,导致采样后生成的图像质量不稳定,且相邻采样的变量生成的图像差异显著,使得一致性正则化(CR)[1]失效。为此,团队提出以下创新:

1. 风格空间量化:在先验空间的基础上构建代理的风格空间(Style Space),将其分割为子向量并通过可学习码本(Codebook)量化为紧凑的离散代理空间(图2a)。每个量化编码对应特定语义特征,显著提升生成多样性与可控性。

2. 知识增强的码本初始化:利用CLIP等基础模型提取图像语义特征,通过最优传输距离(Optimal Transport)将码本编码与真实数据对齐,构建语义丰富的“视觉词典”(图2b)。

3. 量化一致性正则化:在离散代理空间中对扰动潜在变量施加一致性约束,增强判别器对语义相似样本的鲁棒性。

图2:SQ-GAN总体框架图

结果:

研究团队在Oxford-Dog、FFHQ、MetFaces, BreCaHAD等小样本数据集上进行了全面验证。我们提出的SQ-GAN在FID、IS等指标上显著优于StyleGAN2、ADA、CR等方法。

表1:SQ-GAN在Oxford-Dog和FFHQ-2.5K数据集上针对各种设置与SOTA方法进行全面比较

表2:在小型(极有限)数据集上对MetFaces和BreCaHAD的定量结果比较

表3:各种生成对抗网络(GAN)架构在Oxford-Dog数据集上的结果比较

图3:Oxford-Dog数据集生成效果对比

我们在Oxford-Dog数据集上对不同code dimension、均匀性正则化和码本初始化进行了消融研究。

表4:消融实验结果

进一步地,我们计算了由两个相邻潜在变量生成的图像之间的语义差异。CLIP特征相似性验证表明,SQ-GAN生成的图像与目标文本的语义匹配度更高,突显了团队提出的SQ-GAN的有效性。

图4:CLIP语义相似性分布可视化

总结:

该工作首次将风格空间量化引入小样本GAN训练。其核心贡献在于:揭示了传统潜在先验空间在数据稀缺下的局限性,提出离散代理空间的创新解决方案;通过最优传输对齐码本与真实数据语义,构建可解释的视觉词汇库;在多个基准任务中实现SOTA性能,为医疗影像合成、艺术创作等数据稀缺场景提供高效工具。未来,团队将探索量化空间的可控编辑与跨模态生成应用,进一步推动小样本生成技术的发展。

参考文献:

[1] Zhengli Zhao, Sameer Singh, Honglak Lee, Zizhao Zhang, Augustus Odena, and Han Zhang. Improved consistency regularization for gans. In Thirty-Fifth AAAI Conference on Artificial Intelligence, pages 11033–11041, 2021.

学生作者简介:

王坚,四川大学计算机学院(软件学院、智能科学与技术学院)2021级博士研究生,研究方向为计算机视觉、多模态学习、医学图像等,相关研究成果发表在Pattern Recognition,IEEE TNNLS,ICML,CVPR等国际顶级期刊或会议上。

兰鑫,四川大学计算机学院(软件学院、智能科学与技术学院)2022级硕士研究生,研究方向为生成模型,多模态学习,迁移学习等,相关研究成果已被ICML2024,CVPR2025等顶级会议录用。

上一篇: