加载中...

Conditional Identity Anonymization Generative Adversarial Networks


【论文阅读】CIAGAN: Conditional Identity Anonymization Generative Adversarial Networks (2020 CVPR)

代码:Official PyTorch implementation of CIAGAN

背景

数据隐私越来越受到关注,欧盟等实体已经通过了《通用数据保护条例》(GDPR)等法律来保障数据隐私。对于计算机视觉研究人员来说,创建包括人在内的高质量数据集变得非常具有挑战性,因为数据集中的每个人都需要授权使用他们的图像数据。最近,杜克大学 MTMC 数据集由于隐私原因下线了。 观察到许多计算机视觉任务,如人脸检测,多人跟踪或者动作识别等,不需要识别视频中的人的身份,只需要检测他们。然而,一些经典的匿名化技术,如人脸模糊,会显著改变图像,从而导致检测性能的大幅下降。

相关工作

1. 匿名化方案

传统的图像处理方法:pixelization, blur 或者 mask。由于这些操作是基于启发式而不是学习的,所以不能保证这些操作对于去识别任务是最优的。这些方法经常使人脸无法检测,因此无法在标准的计算机视觉管道中使用。

Learning to anonymize faces for privacy preserving action detection. 生成的人脸仍然可以被人类识别。而且,该方法无法控制生成过程,每个标识都映射到相同的假标识。

Natural and effective obfuscation by head inpainting. 工作重点是改变面部标志,这可能导致不自然的结果。此外,他们的方法对生成的外观没有显式控制。

Deepprivacy: A generative adversarial network for face anonymization. 生成的人脸仍然可以被人类识别。

A hybrid model for identity obfuscation by face replacement. 结果在视觉上很吸引人,但由于面对齐的优化程序,该方法计算效率不高。此外,由于该方法基于参数化的面部模型,因此被设计为只处理面部,因此不能直接将其扩展到其他领域,如完整的人体。

Live face deidentification in video. 作者展示了良好的定性结果和前所未有的去识别率。然而,虽然生成的图像可以骗过识别系统,但一般来说,人类可以识别出呈现的面孔的身份。它们缺乏控制和多样性,无法为相同的输入面显示不同的匿名输出。我们的 CIAGAN 模型为图像和视频的匿名化提供了一个通用框架。通过为所需生成的身份和不同身份的混合风格提供标签,我们可以直接控制识别过程。这不仅会生成高质量的图像,而且在相同身份的图像之间具有更高的可变性。

2. 真实人脸生成

Coupled generative adversarial networks.

Progressive growing of gans for improved quality, stability, and variation.

A style-based generator architecture for generative adversarial networks.

Arbitrary style transfer in real-time with adaptive instance normalization.

3. 图像对图像和视频对视频的翻译

Image-to-image translation with conditional adversarial networks.

Unpaired image-to-image translation using cycleconsistent adversarial networks.

Video-to-video synthesis.

优点和贡献

通过删除人的识别特征来匿名化 (或去识别) 图像和视频,同时仍然保留必要的特征,以允许面部和身体探测器工作。这些图像对人类观察者来说仍然应该是真实的。CIAGAN 模型满足以下匿名化系统应该具备的重要属性:

  • Anonymization 匿名化: 生成的输出必须隐藏原始图像中的人的身份。本质上是从输入图像中生成一个新的假身份。

  • Control 控制: 生成的图像的假身份由一个控制向量控制,对真假身份映射有完全的控制。

  • New identities 新标识: 生成的图像必须只包含训练集中不存在的新标识。

  • Realistic 逼真: 输出图像必须看起来逼真,以便被最先进的检测和识别系统使用。

  • Temporal consistency 时间一致性: 对于人员跟踪或动作识别等任务,需要保证视频中的时间一致性和姿势保存。

Method

在本节中,我们将详细介绍对图像和视频进行匿名化的方法。我们提出的条件身份匿名生成对抗网络 (CIAGAN) 利用生成对抗网络的力量生成真实的图像。为了控制身份生成过程并保证匿名化,我们提出了一种新的身份鉴别器来训练 CIAGAN。

3.1 方法概述

  • 首先将原图通过 landmark detection 形成面部的轮廓以及带有 mask 的背景图,将他们拼接成 [B,6,128,128] 维度的数据并馈送入生成器中。
  • 生成器时一个 auto-encoder 的形式,将目标图的 onehot 向量经过转置卷积神经网络形成 [B,256,4,4] 维度的数据,此时,输入到生成器中的数据经过下采样也是 [B,256,4,4] 的维度,然后将他们拼接为 [B,512,4,4] 维度的数据进行上采样,最终输入假图。
  • 图中右上角的判别器是用来判别图片的真假。
  • 图中右下角的判别器是身份判别器,用于判别 G 生成的假图与目标图之间的差异,类似于身份分类器。

3.2 Pose preservation and temporal consistency 姿势保持和时间一致

Landmark image。 为了确保生成的面孔不会与原始的身份联系在一起,我们建议对面孔进行抽象处理。更准确地说,我们使用面部 landmark 图像。这有两个优点:(i) landmark 图像包含人脸的稀疏表示,几乎没有留下身份信息,避免身份泄露; (ii) 生成器以人脸形状为条件,允许我们在输出中保留输入的姿势。这一点尤其重要,因为我们打算使用生成的图像和视频作为计算机视觉算法的输入。在许多视觉应用中,例如跟踪,方法通常利用面部或身体的姿势。因此,确保该方法不会改变匿名面部或身体的姿势是非常有用的。隐藏尽可能多的身份信息, 但仍保持姿势, 而不是使用所有 68 个landmark, 我们只使用脸部轮廓, 嘴, 和鼻梁。这使得网络的自由选择一些面部特征, 如眼睛距离或眼睛的形状, 而与此同时, 保护依赖于嘴部区域的表达式, 如微笑或大笑, 和全球构成是由鼻子的位置。landmark 被表示为二值图像,作为输入馈送给生成器。
Masked background image。 我们的目标是只生成图像的面部区域,并将其嵌入到原始图像背景中。这使得我们的算法可以将学习能力集中在人脸的生成上 (而不是背景的生成),同时保证我们不会有可能干扰检测或跟踪算法的背景变化。为此,我们提供了带有遮蔽背景图像和 landmark 图像的生成模型。蒙版背景图像仍然包含头部的前额区域。一旦生成器获得了这些信息,它就可以学习将生成的面部的皮肤外观与额头的皮肤颜色匹配。这将带来整体上更好的视觉效果。在同一幅图像中有多个面孔的情况下,我们检测图像上的每个面孔,并依次应用我们的匿名化框架。 我们的管道还可以用于全身匿名化,只需将掩码图像替换为表示身体轮廓的分割掩码。在我们的例子中,我们不使用身体关节作为地标图像的替代,因为一个人的剪影足以作为姿势的先决条件。
Temporal consistency 时间一致性。 为了处理视频,任何去匿名化管道都必须确保生成的图像在视频序列上的时间一致性。最先进的视频翻译模型通过使用以对应帧之间的光流为条件的鉴别器来确保时间一致性。光流通过外部神经网络计算,这使得框架既复杂又计算昂贵。在我们的工作中,由于输入表示的性质,我们免费获得时间一致性。每一帧的地标用样条插值在相邻帧上平滑。因此,我们为图像和视频提供了相同的框架,唯一的区别是在推理时进行的计算成本低的插值。

3.3 Conditional generative adversarial networks 条件生成对抗网络

在本研究中,我们选择用 LSGAN 损耗函数来训练 CIAGAN。使用最小二乘损失函数进行 GAN 训练的想法简单而强大: 最小二乘损失函数能够将假样本移向决策边界,因为它也会惩罚分类正确但仍然远离真实样本的样本。这与交叉熵损失相反,交叉熵损失主要是对分类错误的样本的惩罚。基于此属性,LSGAN 能够生成更接近真实数据的样本。
在 LSGAN 设置下,鉴别器的目标函数定义如下:

minDVLSGAN(D)=12Expdata (x)[(D(x)b)2]+12Ezpz(z)[(D(G(z))a)2]\min_D V_{L S G A N}(D)= \frac{1}{2} \mathbb{E}_{x \sim p_{\text {data }}(x)}\left[(D(x)-b)^2\right]+ \frac{1}{2} \mathbb{E}_{z \sim p_z(z)}\left[(D(G(z))-a)^2\right]

其中 a 和 b 是假数据和真数据的标签。
生成器的损耗定义为:

minGVLSGAN(G)=12Ezpz(z)[(D(G(z))b)2]\min_G V_{L S G A N}(G)= \frac{1}{2}\mathbb{E}_{z \sim p_z(z)}\left[(D(G(z))-b)^2\right]

在不丧失通用性的情况下,LSGAN 可以被用于 GAN 训练的任何其他常见损失函数所替代。

3.4 Identity guidance 身份引导

如果图像生成的所有可变性都是由地标输入提供的,那么网络很快就会在训练集上过拟合,有效地只进行图像重建。 通过这样做,它生成的人脸与训练数据集中的人脸非常相似,失去了最终的匿名化目标。为了解决这一问题,我们引入了一种新的身份引导鉴别器。更准确地说,对于每一个给定的真实图像,我们随机选择其相应生成的图像的期望恒等式。这个恒等式在一个热向量上表示作为转置卷积神经网络的输入。网络生成身份的参数化版本,并将其输入生成器的瓶颈。通过这种方式,生成器学会生成具有所需身份的一些特征的人脸,同时保持真实图像的姿势。换句话说,生成的图像是landmark标识和期望标识的组合。生成的图像的标识必须不与任何真实标识相同,以使生成的图像不可识别。

身份鉴别器设计为使用 proxy-nca 损失预训练的连体神经网络。预训练是使用真实的图像完成的,其中鉴别器经过训练,将来自属于同一身份的图像的特征聚集在一起。在 GAN 训练中,我们使用对比损失对连体网络进行微调。在这个微调步骤中,我们允许 siamese 网络将假图像和真实图像的 ID 表示组合在一起。以协作的方式联合训练身份鉴别器和生成器。标识鉴别器的目标是向生成器提供一个引导信号,以引导其创建与特定标识的表征特征相似的图像。

结论及未来工作

目前所有去识别方的一个缺点是,在对原始人脸进行匿名化之前,需要对原始人脸进行初步检测。因此,任何没有被检测到的面孔都不能被匿名化。因此,这些方法不能部署在必须保证匿名的系统中。我们的方法也存在类似的问题,因为它依赖于 landmark 检测。作为未来的工作,我们计划致力于完全的图像匿名化,并进一步消除对 landmark 检测的需要,以便能够处理极端的姿势。


文章作者: JiJunhao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 JiJunhao !