加载中...

计算机视觉任务(二)


Generative Models

给定来自感兴趣分布的观察到的样本xx,生成模型的目标是学习对其真实数据分布p(x)p(x) 进行建模。一旦学会,我们就可以随意从我们的近似模型中生成新的样本。此外,在某些公式下,我们还可以使用学习的模型来评估观察或采样数据的可能性。生成对抗网络 (GANs) 对复杂分布的采样过程进行建模,该过程以对抗方式学习。另一类生成模型,称为 “基于似然”,旨在学习一种模型,该模型为观察到的数据样本分配了高似然性。这包括自回归模型,归一化流和变分自动编码器 (VAEs)。另一种类似的方法是基于能量的建模,其中将分布学习为任意灵活的能量函数,然后将其归一化。基于分数的生成模型高度相关; 他们不是学习对能量函数本身进行建模,而是将基于能量的模型的分数学习为神经网络。

对于许多模态,我们可以认为我们观察到的数据是由相关的看不见的潜在变量表示或生成的,我们可以用随机变量zz表示。表达这种想法的最佳直觉是通过柏拉图的洞穴寓言。在寓言中,一群人一生都被锁在洞穴中,只能看到投射在他们面前墙壁上的二维阴影,这些阴影是由看不见的三维物体在火灾前通过的物体产生的。对这样的人来说,他们观察到的一切实际上都是由他们永远看不到的更高维度的抽象概念决定的。

类似地,我们在实际世界中遇到的对象也可以作为某些更高级表示的函数生成; 例如,此类表示可以封装抽象属性,例如颜色,大小,形状等。那么,我们观察到的东西就可以解释为这种抽象概念的三维投影或实例化,就像洞穴人观察到的东西实际上是三维物体的二维投影一样。尽管洞穴人永远看不到 (甚至完全理解) 隐藏的物体,但他们仍然可以对它们进行推理和推论; 以类似的方式,我们可以近似描述我们观察到的数据的潜在表示。

柏拉图的寓言说明了潜在变量背后的思想,即确定观测值的潜在不可观察的表示形式,而这种类比的一个警告是,在生成建模中,我们通常寻求学习低维的潜在表示形式,而不是高维的表示形式。这是因为尝试学习比观察更高维度的表示是没有强烈先验的徒劳的尝试。另一方面,学习低维延迟也可以看作是一种压缩形式,并且可以潜在地发现描述观察结果的语义上有意义的结构。

图像生成模型的本质:把简单分布(normal distribution 或者 uniform distribution)对应到一张张的图像上

cc文字条件,xx 图像,学习p(xc)p(x|c)是很困难的,不能拿高斯分布或者任何分布表示,怎么近似表达出整个分布是生成模型的核心。

Autoregressive Model

https://openai.com/blog/imgae-gpt/

拉成一排 ,一排一排的生成像素

Variational Auto-encoder (VAE)

将图像和分布对应训练 一个decoder 和一个 encoder

Flow-based Generative Model

刻意限制神经网络的架构 ,encoder是可逆的,输入和输出是一致大小的

Diffusion Model

Denoising Diffusion Probabilistic Models (DDPM)

https://arxiv.org/abs/2006.11239

Stable Diffusion

https://arxiv.org/abs/2112.10752

DALL-E series

https://arxiv.org/abs/2204.06125

https://arxiv.org/abs/2102.12092

Imagen

https://arxiv.org/abs/2205.11487

Generative Adversarial Network (GAN)

学习一个decoder,在训练一个discriminator,去判断是否是真的图片,即图像的分布是否一样

评价指标

FID 值 :评估图像生成模型的好坏,用预训练的CNN生成特征向量latent,假设真和假都是高斯分布,算两个高斯分布的距离frechet distance

CLIP值 :Contrastive language-image pre-trainimg,文字输入文字编码器,图像输入图像编码器,看两个距离远不远。

VAE + GAN https://arxiv.org/abs/1512.09300
Flow +GAN https://arxiv.org/abs/1705.08868
Diffusion +GANhttps://arxiv.org/abs/2206.02262

学习问题–如何找到最大化似然函数p(x;θ)p(x;\theta)

1. 显式的建模(设定了p(x;θ)p(x;\theta)的形式)

1.1 精确建模

  • 不含隐变量 Autoregressive Model
  • 含有隐变量 Flow-based Model

1.2 近似建模

  • 变分推断 VAE
  • 采样 MCMC
  • 扩散模型 Diffusion Model

2. 隐式的建模(不关系p(x;θ)p(x;\theta)的形式)

  • 直接建模 GAN
  • 简介建模 (MC)GSN

一个生成模型通用的框架

文字、semantic map、representation等条件输入Text Encoder

然后和image(选带噪音)一起塞到Generative Model(可以是任何生成模型)

生成一个中间产物(类似于图像的压缩版本或者带噪音的版本或者特征表示)

然后将这个中间产物输入到Decoder(可以是超分辨率,可以是去噪,任意类型任意个数的Decoder),恢复出图像


文章作者: JiJunhao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 JiJunhao !
  目录