扩散模型在图像分类域泛化中的应用研究综述

扩散模型在图像分类域泛化中的应用研究综述

过去三年中,扩散模型(Diffusion Models)在图像分类的域泛化(Domain Generalization)任务中展现出新颖而有效的应用。域泛化旨在训练出能够直接适应未知目标域的数据分布的模型,而无需在目标域上进行任何微调。以下我们将从核心方法、所用扩散模型类型、应用场景、实验评估及代表性研究等方面进行综述。

核心方法与思想

1. 基于数据增广的扩散生成:许多方法利用扩散模型强大的图像生成能力来扩充源域数据的多样性,缩小不同域之间的差异。这类方法通过在训练时引入跨域合成图像来模拟未见过的目标域分布。例如,Hemati等人提出跨域生成增广(CDGA)方法,借助预训练的潜变量扩散模型(latent diffusion model)生成填补多个源域分布间隙的图像。简单而言,CDGA从任意两个源域出发,在其“附近”合成新样本,从而减少域间分布差异,实践中显著提升了模型在未见域的表现。Noori等人提出的FDS(Feedback-guided Domain Synthesis)则通过多源条件扩散模型来进行“域混合”生成。他们在源域数据上训练扩散模型,插值噪声级和条件以混合多个源域特征,生成“新域”样本,并筛选出对源模型具有挑战性的难例加入训练。这种反馈生成策略确保训练集覆盖更广泛的分布,从而将模型鲁棒性提升到新的水平

2. 文本引导与条件控制:扩散模型允许通过文本或图像条件引导生成不同风格的图像。Ren等人(2025)提出“语言引导的扩散”数据增广框架,利用大型语言模型(LLM)生成描述新域风格的文本提示,然后用文本条件扩散模型合成相应风格的图像。他们还结合CLIP模型进行多样性分析,确保生成的数据既提升泛化性又保持多样性和效率。实验证明,在PACS等基准上,该方法显著优于传统增广技术。另外,Lin等人关注公平域泛化问题,提出FADE方法:先预训练扩散模型和分类器,然后用分类器指导扩散模型去除生成图像中的敏感属性信息,生成“公平”的数据用于训练。这一分类器引导的扩散生成不仅减轻了偏见,还提升了分布偏移下的模型准确度。综上,这些方法通过条件控制扩散模型合成多样且具有特定属性的图像(不同风格、新环境、无敏感信息等),增强模型对新域的适应力。

3. 扩散模型辅助的域不变特征提取:除了直接生成图像,一些方法利用扩散模型的中间表征来提升域泛化模型的特征学习。Huang等人提出的DomainFusion框架同时在潜空间像素空间利用预训练的潜变量扩散模型(如Stable Diffusion)来辅助分类模型训练。在潜空间,DomainFusion设计了梯度得分蒸馏(GSD),从扩散模型中提取梯度先验来指导分类模型的优化,理论上可逼近两模型输出分布的KL散度最小化。在像素空间,他们通过自回归采样策略生成并洗牌合成样本,优化合成图像的语义和非语义因素,使其更贴近未见域。该方法相当于将稳定扩散模型中蕴含的大规模图像分布知识融入判别模型,因而相比仅用生成数据的方法取得了更大的性能提升。Thomas和Ghadiyaram(2025)提出的GUIDE方法则完全不依赖域标签,直接利用扩散模型的表征来推断伪域。他们观察到扩散模型(如Stable Diffusion或DiT)的潜空间中自然形成了风格聚类,可代表数据的不同“伪域”。GUIDE首先用预训练扩散模型提取训练样本的潜向量并聚类,以获得若干伪域质心,然后将这些伪域表示与原始特征拼接一起训练分类器。这种融合了“域信息”的特征空间比仅用图像特征更能抵抗域移变,在多个基准上显著提高了分类准确率(例如OfficeHome数据集上比强基线提升3%)。上述方法表明,扩散模型的知识可通过蒸馏或特征拼接等方式提升模型的域不变表征能力

4. 模型参数空间的扩散建模:一种独特的思路是将扩散模型用于直接生成模型参数,以实现对未来域的自适应。Xie等人在NeurIPS 2024提出Weight Diffusion (W-Diff)框架,针对持续变化的非平稳环境下的域泛化。W-Diff在参数空间训练条件扩散模型:将历次源域训练得到的分类器权重存入队列,计算当前(最新)域分类器与历史分类器之间的权重差,并将这种权重残差作为diffusion的训练数据。扩散模型以历史域的分类器为条件、以当前域的类别原型为附加条件,学习从历史权重过渡到当前权重的演化模式。通过这种方式,模型捕获了参数随域分布演进的规律。推理时,以当前已训练分类器为锚点,让扩散模型生成大量针对未来域定制的分类器权重,并对它们的预测结果做集成。实验证明,与以往仅在特征层面外推未来域的方法相比,W-Diff在模拟未来未知域时更加有效,在合成和真实的时间演变域数据上都取得了更优的性能。这一方法开创性地将扩散模型用于学习模型参数的渐变规律,为持续学习和未来域预测提供了新思路。

使用的扩散模型类型及用途

1. DDPM及其扩展:大部分方法使用扩散概率模型的典型实现——DDPM(Denoising Diffusion Probabilistic Models)及其变种。Stable Diffusion等潜变量扩散模型(Latent Diffusion Models, LDM)是最常用的选择。它在低维潜空间进行扩散,大幅提高了采样效率,同时通过融合文本编码实现可控生成。许多域泛化研究直接利用开源的Stable Diffusion模型作为图像生成器。例如CDGA使用了Stable Diffusion对源域图像应用提示词(prompt)引导,生成不同域风格的样本;在PACS、OfficeHome等风格域数据上,CDGA主要通过文本提示控制生成,而在VLCS等现实数据上则使用图像混合引导来生成跨域样本。另外,FDS方法则微调了预训练扩散模型并引入多条件控制:将“域标签”作为条件嵌入到扩散模型的噪声预测网络中,然后在推断时对不同域条件进行分层插值(如对噪声级、文本embedding插值),合成混合域图像。通过这种条件扩散,FDS能够严格控制生成图像所属的域分布,保证生成样本的多样性和跨域跨度。

2. Score-based模型:部分工作采用score-based扩散模型(本质上与DDPM等价,只是从概率流角度定义),特别是在需要自定义训练扩散模型的场景。Lin等人的FADE框架即在其特定数据集上预训练了得分匹配扩散模型,并训练了两个分类器(任务分类器和敏感属性分类器),然后通过分类器指导采样的方式来引导扩散模型产生不含敏感信息的图像。这里使用的“分类器指导”技术与Diffusion模型生成图像时添加引导梯度相似,可以看作对score-based生成过程的条件微调,以去除特定特征。相比直接使用预训练的大模型,这种自训练的扩散模型更易于在小型专用数据集(如公平学习场景)上操控。需要注意的是,score-based模型生成质量虽高,但计算开销也大,因而有些研究仍倾向于利用预训练的稳定扩散模型,以减少训练负担。

3. 文本与图像条件:为了实现精细的生成控制,研究中广泛使用了条件扩散模型。最常见的是文本条件扩散(如Stable Diffusion),用于根据描述生成具有某种风格或属性的图像。例如语言引导扩散方法中,LLM产生的描述提示通过Stable Diffusion生成全新风格的图像。同时也有方法采用图像条件(image-to-image扩散),即给定一张源域图像,通过扩散模型添加噪声再去噪,将其转换到另一种域的外观。Niemeijer等(WACV 2024)的研究在语义分割背景下使用了图像条件扩散模型,将合成源域图像的风格转化为真实目标域风格,从而提升模型在真实场景的泛化。在图像分类任务中,类似的思想被用于将源域图像“风格迁移”到其他域:例如Truong等人的ED-SAM方法,在扩散模型最后一步加噪后对潜变量进行扰动,再映射回图像,产生在造型和风格上有所变化的样本。此外,多模态扩散也被探索,如DomainFusion除了文本条件外,还利用扩散模型的内部梯度信息(可视为条件)来指导判别模型训练。总的来说,各方法充分利用了扩散模型灵活加入条件的特性,通过文本描述域属性、图像示例目标风格或直接针对特定特征进行引导,来精确地控制生成内容并服务于域泛化目标。

4. 潜空间与参数空间扩散:有别于传统的像素空间生成,一些方法探索了非像素空间的扩散模型应用。GUIDE利用扩散模型潜空间提取的隐变量代表图像的域属性;通过对这些隐变量聚类获得伪域标签,再将其反馈给判别模型训练,从而在不生成额外图像的情况下利用了扩散模型的“见多识广”来增强域泛化能力。W-Diff则是在模型权重空间实施扩散:它训练的扩散模型输入是历史域的分类器参数,输出是下一域的分类器参数(以残差形式),实质是在参数空间进行“去噪”推理来预测未来域的模型。这种创新用法展示了扩散模型在除图像像素以外的数据分布上(如特征、参数)的强大建模能力,可用于生成域不变特征自适应模型参数

域泛化应用场景

1. 跨视觉风格的泛化:许多研究集中在风格或外观差异明显的图像域上,如绘画风格 vs. 实拍照片等典型情形。PACS数据集是此类场景的代表,它包含照片、艺术画作、卡通和素描四个域,相同物体在不同域中呈现出显著的形状、颜色和纹理差异。扩散模型可以方便地在这些风格之间进行转换或生成过渡风格的图像,从而提升模型对任意风格的新图像的识别能力。例如,CDGA在PACS上通过文本提示生成介于真实照片和卡通画之间风格的图像,以弥合二者差异。Office-Home数据集类似地涉及艺术画、剪贴画、产品照片和真实拍摄四种域,主要差别在于物体的绘制风格和背景环境。对这类多风格对象分类任务,扩散模型生成的多样风格合成图像显著提高了模型的鲁棒性,例如GUIDE在Office-Home上无须域标签就挖掘出了潜在风格信息,使准确率相比不使用扩散特征时提高了约3个百分点。

2. 跨合成与真实域:在一些应用中,训练域为模拟/合成数据,而测试域为真实世界数据,二者存在显著的视觉差异。这类问题常见于自动驾驶、遥感等领域,如语义分割中的GTA5(合成游戏画面)到Cityscapes(真实街景)转换。在图像分类中,DomainNet数据集提供了类似场景:它包含照片、剪贴画、画作、素描、模拟画(infograph)和涂鸦(quickdraw)等六种不同来源的图像。不同来源之间不仅风格迥异,甚至图像细节复杂度也不同(例如Quickdraw域是非常简化的线条画)。扩散模型可以用文本描述这些合成域的特征,生成与真实域更接近的样本,或者反过来从真实图像生成具有合成风格的样本来丰富训练集。例如,有方法构建文本库描述DomainNet中潜在的新域,然后通过扩散模型生成相应图像以补充训练。实践表明,通过这种跨合成-真实的对齐生成,模型在DomainNet等复杂多源数据上的平均性能有明显提升,证明扩散模型有助于模拟潜在的新域

3. 跨拍摄环境和设备:另一类场景涉及成像条件或环境改变导致的域差异,例如不同相机、不同光照/天气、不同地点等。在Terra Incognita数据集中,不同域对应不同的相机陷阱拍摄地点,因而背景植被、地形纹理等环境特征各异。这种情况下,域泛化要求模型关注与任务相关的主体而忽略环境变化。扩散模型可以通过改变背景或环境元素生成新的训练样本。例如,将一张森林中动物的照片扩散生成在荒漠背景下的版本,从而让模型学会在极端不同的环境中仍能识别动物。上述GUIDE方法的分析显示,Stable Diffusion这类模型能够捕捉诸如植被密度、地形模式等细微环境差异。通过在训练集中合成各种环境下的图像,模型在Terra Incognita未见地点上的表现得以提升。同样,针对不同摄像头成像差异、不同图像质量(清晰度、噪声水平)等,扩散模型均可用于制造这些条件下的样本,帮助模型实现跨设备、跨条件的泛化。

4. 非传统视觉任务:值得一提的是,扩散模型在一些特殊领域泛化任务中也开始展现作用。例如在故障诊断中,不同机器或传感器采集的振动信号可视为不同“域”。Liu等人(2025)提出一种频域引导的潜变量扩散模型,将机械设备的振动频谱图表示为图像,在潜空间引入噪声扰动并生成不同工况下的频谱,从而提升模型对新机台故障的诊断准确率。又如公平人脸分类场景中,把不同性别或种族视作域,FADE通过去除敏感属性信息来生成中性人脸数据训练模型,实现对未见人群分布的公平泛化。这些应用表明,扩散模型的域泛化价值不局限于一般物体分类;对于各种需要跨域(跨设备、跨人群、跨时间)鲁棒性的任务,都可以设计相应的扩散模型策略来提高模型可靠性。

实验设置与评估基准

1. 多源域训练与留一法测试:域泛化研究通常采用多源域训练、目标域留出的实验范式。也就是给定若干个来源域的数据集,用其中的全部或部分域作为源域训练模型,然后在从未参与训练的目标域上直接测试模型表现。例如在PACS上,典型做法是依次选取其中一个域作为目标域,其余三个域一起训练模型,然后测试模型在该目标域的准确率;对每个域如此重复,最后报告平均性能。类似地,Office-Home、DomainNet等多域数据也采取这种交叉验证式评估。许多工作使用统一的开源框架DomainBed来进行评测,该框架涵盖PACS、VLCS、Office-Home、Terra Incognita、DomainNet五大经典数据集。使用DomainBed可以确保不同方法在相同数据划分和模型架构下比较性能,增强公平性。

2. 常用基准数据集:上述数据集中,PACSOffice-Home因为规模适中且域差异直观,最为常用。PACS有4个域共9991张图像,Office-Home有4个域共约15,500张图像,各包含数十类对象。VLCS较早期,包含4个摄影图像数据集的组合(PASCAL VOC2007、LabelMe、Caltech101、SUN09),共有5类对象,每个子数据集作为一个域。Terra Incognita聚焦野生动物相机陷阱数据,共4个域约24,788张图片,包含10类动物,每个域对应不同地理位置。DomainNet规模最大,6个域合计约0.6百万张图,涵盖345类日常物体,是目前最具挑战的域泛化基准之一。由于DomainNet数据量巨大,一些研究只选取其中部分域或类进行实验,以控制训练时间。对于特定场景,有时也会引入额外数据集,如FADE在公平性实验中可能使用人脸属性数据集,W-Diff在持续学习实验中可能构造序列化的多个数据流(例如数字图像不断旋转变化形成一系列域)等。这些数据集和设置共同确保评价模型在未知域上的性能

3. 评价指标:图像分类域泛化主要采用分类准确率(Accuracy)作为指标,关注模型在各目标域上的准确率以及平均准确率。通常报告在每个单独留出域的准确率以及所有域的宏平均。有时也关注相对提升:如相比经验风险最小化(ERM)基线方法提升了多少个百分点。另外,一些研究引入了域泛化特有分析指标。例如,Hemati等利用Fréchet距离定量评估源域与合成数据分布的差异,以验证生成数据确实缩小了域间距离。还有工作度量特征空间的Hessian矩阵距离loss landscape平坦度来解释模型泛化性的提升。然而最终评价仍以目标域识别准确率为主,辅以统计显著性检验确保结果可靠。

4. 实验结果概况:基于扩散模型的策略目前在各大基准上均取得了领先性能。例如,前文提到的CDGA方法在PACS和Office-Home上分别达到88.4%70.2%的平均准确率,大幅超过传统ERM基线的78.3%和63.9%。相比其它数据增广方法,CDGA在这两个数据集上均名列前茅。又如DomainFusion在PACS、VLCS、Office-Home、DomainNet上全面超过先前的生成式方法,取得当前最优的平均成绩。FDS方法在PACS上达到89.7%的最高准确率,在VLCS和Office-Home上也有显著提升,据报道刷新了这些基准的SOTA。GUIDE方法在无需域标签的情况下,性能甚至赶超了部分使用域标签的算法,在DomainBed五个数据集的平均准确率上名列前茅。此外,W-Diff在其设定的持续演变域任务中表现出色,实现了对未来域的准确预测。总体而言,引入扩散模型后的方法在标准基准的稳健性和平均性能上均优于以往无生成模型的方案,证明了扩散模型在提升域泛化能力方面的价值。

最新代表性论文与综述

近三年出现了多篇将扩散模型用于域泛化的代表性论文和综述,下面列出其中具有代表性的工作:

  • Cross Domain Generative Augmentation: Domain Generalization with Latent Diffusion Models – Sobhan Hemati等人,TMLR 2024(arXiv 2023)。主要贡献:提出CDGA数据增广方法,利用预训练潜变量扩散模型生成源域对之间的中间态图像,显著缩小域间分布差距,提升了DomainBed基准下的SOTA性能。作者通过生成超过500万张合成图像并进行丰富的分析(数据分布可视化、损失景观等)解释了该方法效果。

  • DomainFusion: Generalizing to Unseen Domains with Latent Diffusion Models – Yuyang Huang等人,ECCV 2024。主要贡献:提出将大规模潜变量扩散模型融入判别模型训练的框架。在潜空间提出梯度得分蒸馏(GSD)指导特征学习,在像素空间设计高效采样策略生成多样样本。DomainFusion在多个基准上超过此前所有基于扩散的数据生成方法,达到新的SOTA水平。

  • Feedback-guided Domain Synthesis with Multi-Source Conditional Diffusion Models for Domain Generalization – Mehrdad Noori等人,arXiv 2024。主要贡献:提出FDS方法,将多源条件扩散模型用于域泛化数据合成。通过在源数据上训练扩散模型并交叉混合多个域的条件来生成新域样本,同时设计难例筛选机制。综合实验在PACS、VLCS、OfficeHome等数据集上取得了新的最佳成绩。该方法代码已开源,促进复现和扩展。

  • Weight Diffusion for Future: Learn to Generalize in Non-Stationary Environments – Mixue Xie等人,NeurIPS 2024。主要贡献:开创性地将扩散模型引入模型权重空间,解决持续变化环境下的域泛化。通过条件扩散模拟分类器随时间演化的模式,生成面向未来域的多个分类器并集成预测。在合成序列数据和真实非静态数据上均证明了优异的泛化性能,推动了渐变域泛化研究。

  • “What’s in a Latent? Leveraging Diffusion Latent Space for Domain Generalization” – Xavier Thomas, Deepti Ghadiyaram,arXiv 2025。主要贡献:提出GUIDE方法,不借助域标签直接利用扩散模型潜空间来推断域结构。通过聚类扩散模型的特征表示得到伪域,再用于指导分类模型训练,实现了在未知域上的高性能,同时揭示了扩散模型潜空间中蕴含的丰富域信息。

  • Language-Guided Diffusion for Domain Generalization – Haolin Ren等人,ICLR 2025研讨会。主要贡献:首次将大语言模型与扩散模型结合用于域泛化数据增广。由LLM生成描述新域风格的文本提示,再经Stable Diffusion合成对应图像。并引入CLIP度量确保生成样本既丰富又贴合任务需求,实验证明在PACS等数据集上显著提升了模型泛化性能。

  • FADE: Towards Fairness-aware Augmentation for Domain Generalization via Classifier-Guided Score-based Diffusion Models – Yujie Lin等人,arXiv 2024。主要贡献:针对公平学习,提出结合扩散模型的域泛化方法。通过预训练得分基扩散模型和分类器,并在采样过程中用分类器梯度引导去除敏感属性,从而生成公平且域不变的数据用于训练。在多个真实数据集上,FADE同时提高了模型在新域中的准确性和决策公平性。

  • Domain Generalization Through Data Augmentation: A Survey of Methods, Applications, and Challenges – Jianing Mai等人,_Mathematics_期刊 (MDPI) 2025。主要内容:综述了域泛化中数据增广的方法,将其分为规则、梯度和生成三类,并比较了输入层面和特征层面增广的效果。特别地,综述指出基于扩散模型的生成增广在近年来表现突出:如CDGA方法利用扩散模型使PACS和Office-Home的ResNet-18准确率达到88.4%和70.2%,显著优于不使用生成的78.3%和63.9%。文章还讨论了这类方法的多样性优势和计算代价等问题。

以上工作体现了扩散模型在提升域泛化能力上的多种思路和优越性。从数据层面的多域合成、特征层面的知识蒸馏,到参数层面的模型生成,扩散模型为长期存在的域移变问题提供了新的解法。展望未来,随着扩散模型生成质量和效率的进一步提高,以及与其他技术(如大模型、增量学习)的结合,基于扩散模型的域泛化方法有望在更大规模、更复杂的跨域场景中取得突破,为提升视觉模型的鲁棒性和泛化性奠定坚实基础。