我中心研究生参加2024ICML现场展示生成对抗神经网络的小样本训练的最新成果
2024 ICML 于7月21日至27日在奥地利维也纳召开。我中心研究生参加会议并现场展示生成对抗神经网络的小样本训练的最新成果《MS3D: A RG Flow-Based Regularization for GAN Training with Limited Data》(2021级博士生王坚为第一作者。2021级博士生王坚为第一作者,吕建成教授为通讯作者)。 ICML 是机器学习领域的国际顶级会议。 ICML 2024共计收到9473篇投稿,录用率约为 27.5%。课题组派博士生田煜鑫进行 Poster 现场讲解展示。
图1 论文Poster展示
背景:GANs因其在图像生成方面的卓越表现而备受关注,是图像生成领域的重要研究方向。然而,GANs的训练往往需要消耗大量高质量数据,这限制了其在训练数据受限情况下的应用,例如颅骨-人脸复原[1]。为了解决这一问题,研究团队深入探讨了有限数据集条件下训练GANs的挑战,并提出了基于物理学中重整化群 (Renormalization Group, RG) 概念的新型正则化方法。
方法与创新:课题组首先观察到在有限数据条件下,判别器 (Discriminator) 非常容易过拟合 (图2(a))。通过进一步观察梯度,可以发现:生成器 (Generator) 从判别器获得的梯度模式随时间变得更加聚集,如图2(b)所示。文章将该现象命名为:感知缩窄现象 (Perceptual Narrowing Phenomenon) ,并在不同数据集和GAN结构上,确认了该现象的存在。
图2 在有限数据情况下GAN判别器的表现
文章尝试从重整化群角度解释了判别器产生该现象的原因:首先将判别器返回的梯度的过程作为一个整体的反馈系统,通过重整化提取系统在不同尺度下的粗粒度版本,并计算它们之间的差异(即:非自相似性Self-dissimilarity指标);课题组发现,梯度的聚集会导致非自相似性的上升。如图2(c)所示,通过费雪信息矩阵验证,表明这样的反馈系统十分活跃、敏感,是导致GAN训练退化的重要原因。
基于上述核心观察,文章提出了基于重整化群的多尺度结构的非自相似性正则化方法 (Multi-scale Structural Self-dissimilarity, MS3D),辅助判别器的训练。如图3和4所,文章在判别器反馈的梯度场上进行Kadanoff 重整变换,形成重整化群流,并沿着重整化群流的方向计算非自相似性,将其求和项作为正则化进行优化。
图3 MS3D 方法流程
图4 判别器在不同训练步和空间尺度上的梯度
实验验证:文章在从多个角度验证了提出的MS3D的在GAN的小样本学习方向上的有效性。部分实验结果如下所示,更多实验结果请参考论文。
表1 (a) 与不同GAN损失函数的比较;(b) 与不同正则化方法的比较;
表2 在不同GAN结构的性能
图5 MS3D方法可视化效果
从结果可以知道文章提出的正则化项方法优于现有的模型约束方法,且与这些方法是互补的。另外,MS3D在不同的GAN结构上仍然能够取得当前最优的小样本图像生成效果。
总结:该工作从神经网络内部的学习动力出发,揭示了小样本情况下,生成对抗神经网络失效的原因——过拟合与感知缩小现象。为了解决该问题,文章从重整化群角度提出了一套正则化方法。其巧妙之处在于1)深入分析了GANs训练的动态并在发现了一个在小样本情况下普遍存在的GANs训练现象;2)提出基于重整化群的正则化方法,非侵入式地解决了上述问题。文章通过,在多种小样本的实验设置下,验证了提出MS3D的有效性。
[1] Li, Y., Wang, J., Liang, W., Xue, H., He, Z., Lv, J., & Zhang, L. (2022). CR-GAN: Automatic craniofacial reconstruction for personal identification. Pattern Recognition, 124, 108400.
[2] Wang, J., Lan, X., Tian, Y., & Lv, J. (2024). MS$\textasciicircum3$D: A RG Flow-Based Regularization for GAN Training with Limited Data. Forty-First International Conference on Machine Learning.