加载中...

AI Generated Content(AIGC)


大模型是什么?

大规模预训练模型(large pretrained language model)

大模型发展的前期被称为预训练模型,预训练技术的主要思想是迁移学习。当目标场景的数据不足时,首先在数据量庞大的公开数据集上训练模型,然后将其迁移到目标场景中,通过目标场景中的小数据集进行微调 ,使模型达到需要的性能 。在这一过程中,这种在公开数据集训练过的深层网络模型,被称为 “预训练模型”。使用预训练模型很大程度上降低下游任务模型对标注数据数量的要求,从而可以很好地处理一些难以获得大量标注数据的新场景。

2018 年出现的大规模自监督(self-supervised)神经网络是真正具有革命性的。这类模型的精髓是从自然语言句子中创造出一些预测任务来,比如预测下一个词或者预测被掩码(遮挡)词或短语。这时,大量高质量文本语料就意味着自动获得了海量的标注数据。让模型从自己的预测错误中学习 10 亿 + 次之后,它就慢慢积累很多语言和世界知识,这让模型在问答或者文本分类等更有意义的任务中也取得好的效果。就是 BERTGPT-3 之类的大规模预训练语言模型,也就是我们说的大模型

什么是AIGC

利用人工智能技术自动生成内容

AIGC的三个层面

  • 智能数字内容孪生
  • 智能数字内容编辑
  • 智能数字内容创作

AIGC 能干什么

深度学习促进了AIGC的发展

深度神经网络的结构升级是推动 AIGC 快速发展的主要因素之一。

一方面,实验证明,深度神经网络的学习能力和模型大小呈正相关,伴随着模型参数量的增加,相对应深度神经网络的能力一般会取得大幅提升。但是,随意地增加神经网络规模是行不通的,越大规模神经网络往往意味着更大的训练难度,因此深度神经网络的结构设计显得尤为关键。从早期的玻尔兹曼机,多层感知机,卷积神经网络到深度残差网络和 Transformer 大模型,网络结构进化带来了深度学习模型参数量从几万到数千亿跃升,模型层数也从开始的个位数逐步发展到成百上千。

另一方面,研究者们在深度神经网络结构的设计中引入包含语义的隐式表达和物理知识,以降低模型的训练难度、增强生成内容的丰富程度。例如,研究者发现通过在神经网络的每一层引入隐式表达,能够极大地提升内容生成算法的可控性和生成效果。

AIGC 热门技术

视觉:VIT

文本:Transformer、BERT、GPT

跨模态:CLIP(Contrastive Language-image Pre-Training)、FLIP、VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)

https://kaiminghe.github.io/

1. Transformer

Transformer 主要用在语言模型(LM)上,Transformer 是一个完全依赖于自注意力机制(Self-Attention)来计算其输入和输出的表示的转换模型,可以并行同时处理所有的输入数据,模仿人类联系上下文的习惯,从而更好地为大语言模型(LLM)注入意义并支持处理更大的数据集。

2. GPT

当前最热门的大模型 ChatGPT,其采用的大规模预训练模型 GPT-3.5,核心便是 transformer 和 RLHF 两种语言模型。GPT 的全称是 Generative Pre-Trained Transformer,顾名思义,GPT 的目的就是以 Transformer 为基础模型,使用预训练技术得到通用的文本模型。

3. DM(Diffusion Model,扩散模型)

4. CLIP(Contrastive Language-Image Pre-Training,大规模预训练图文表征模型)

大规模预训练图文表征模型用 4 亿对来自网络的图文数据集,将文本作为图像标签,进行训练。进行下游任务时,只需要提供和图上的 concepts 对应的文本描述,就可以进行 zero-shot transfer。CLIP 为 CV 研究者打开了一片非常非常广阔的天地,把自然语言级别的抽象概念带到计算机视觉里

图片分类的 zero-shot 指的是对未知类别进行推理。CLIP 在进行 zero-shot transfer 时,将数据集中的类别标签转换为文字描述(100 个类别就是 100 个文本描述)zero-shot CLIP 怎么做 prediction?zero-shot prediction:基于输入的图片,在类别描述中检索,找到最合适的类别。Linear-probe evaluation:通过 CLIP 的 image_encoder 得到视觉向量,结合标签做 Logistic Regression

CLIP 结构非常简单,将图片分类任务转换成图文匹配任务:

  1. 用两个 encoder 分别处理文本和图片数据,text encoder 使用 Transformer,image encoder 用了 2 种模型,ResNet 和 Vision Transformer(ViT);

  2. encoder representation 直接线性投影到 multi-modal embedding space;

  3. 计算两模态之间的 cosine similarity,让 N 个匹配的图文对相似度最大,不匹配的图文对相似度最小;

  4. 对称的 cross-entropy loss;

  5. 数据增强:对 resized 图片进行 random square crop;

5.Stable Diffusion

Stable Diffusion 算法逻辑大概分这几步:

  1. 图像编码器将图像从像素空间(Pixel Space)压缩到更小维度的潜在空间(Latent Space),捕捉图像更本质的信息;

  2. 对潜在空间中的图片添加噪声,进行扩散过程(Diffusion Process);

  3. 通过 CLIP 文本编码器将输入的描述语转换为去噪过程的条件(Conditioning);

  4. 基于一些条件对图像进行去噪(Denoising)以获得生成图片的潜在表示,去噪步骤可以灵活地以文本、图像和其他形式为条件(以文本为条件即 text2img、以图像为条件即 img2img);

  5. 图像解码器通过将图像从潜在空间转换回像素空间来生成最终图像。

工具

  • ChatGPT
  • Dall-E 2
  • ControlNet
  • Stable Diffusion
  • MidJourney

图像中常见的大模型

常见的模型可以分为两大类:大模型,用于微调大模型的小型模型。

大模型指的是 latent-diffusion等生成模型模型。拥有完整的 TextEncoder、U-Net、VAE。

常见的用于微调(finetune)大模型的小型模型又分为以下几种:Textual inversion (常说的Embedding模型)、Hypernetwork模型、LoRA模型、Dreambooth模型

【论文阅读】An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

不改变模型,只改变文字编码器

【论文阅读】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

增加Adapter

【论文阅读】LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

增加Adapter

安全问题

  • 大规模数据集里面是否含有个人隐私无法知道,LAION 80T 58.5亿图像。
  • 文本模型需要设置访问控制,选择不回答一些问题。

文章作者: JiJunhao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 JiJunhao !