【机器学习】李宏毅——AE自编码器(Auto-encoder)-6ren

【机器学习】李宏毅——AE自编码器(Auto-encoder)

转载作者：我是一只小鸟更新时间：2022-12-20 14:32:32

29

4

1、What

在自编码器中，有两个神经网络，分别为Encoder和Decoder，其任务分别是:

Encoder：将读入的原始数据（图像、文字等）转换为一个向量
Decoder：将上述的向量还原成原始数据的形式

在这里插入图片描述

而目标是希望还原出来的结果能够与原始数据尽可能的接近。其中的向量可称为Embedaing、Representation、Code。而它的主要用处就是将原始数据（高维、复杂）经过Encoder后得到的向量（经过处理，低纬度）作为下游任务的输入 .

2、Why

因为例如图像这种原始数据它的变化是有限的（不可能每一个像素点都是完全随机的，这不是我们可能看到的图片），因此如果AutoEncoder能够找到它们之间的变化规律（通常是比原始数据更简单的）那么就可以用更加简便的表达形式来表示数据，那么在下游任务训练的时候就可能可以用更简单的数据、更少的数据来学习到原来想要让机器学习到的东西了 .

3、De-noising Auto-encoder

这个和普通的Auto-encoder的区别在于， Encoder的输入并不是原始的图像，而是将图像加上一定的噪声之后再作为Encoder的输入，而在输出的时候是要求 Decoder输出能够与未加噪声之前的图像越接近越好，即:

在这里插入图片描述

而如果我们回顾一下之前学习过的BERT，可以发现 BERT实际上就是De-noising Auto-encoder ，可以看下图:

在这里插入图片描述

4、Feature Disentangle

特征区分技术可以用于上文介绍的Auto-encoder，具体上可以这么理解：在Auto-encoder中我们将图片、文字、语音等放入Encoder得到的输出向量Embedaing中就包含了这些输入的特征信息，但是一个输入可能存在不同的特征信息，例如一段语音就包含语音的内容、说话者的特征等等，那么有没有可能在Embedaing中将这些特征分别提取出来呢？这就是Feature Disentangle想要实现的事情.

在这里插入图片描述

5、Voice Conversion

语者转换这个例子就是学习完模型之后，将A说话的内容用B的声音复述出来作为输出，就好像柯南的领带变声器一般神奇。那么Auto-encoder如何来实现这个任务呢？实际上这就需要借助Feature Disentangle。首先如果将该任务作为一个监督学习的任务，那我们就需要A和B两个人分别来说同样的句子同样的内容，产生大量的样本从而来进行训练，但是这显然是不可能的！因此如果我们利用Auto-encoder和Feature Disentangle，可以有这样的思路:

训练完Auto-encoder后，将A说话的语音和B说话的语音都输出Encoder得到对应的Embedaing输出
运用特征提取技术，将A和B对应的Embedaing分别提取出说话的内容和语者的特征两部分
再 将A说话的特征和B的特征互换，让B的特征和A的内容拼接在一起，这样就实现了用B语者来说出A的内容 。

在这里插入图片描述

6、Discrete Representation

上述我们说到的Embedaing是一个向量，其中每一个维度都是可以连续变化的数值。那么有没有可能我们强迫这个Embedaing是用离散的数值来表示呢？例如表示为二进制，只有0和1，每个维度表示是否含有某个特征；或者表示为One-hat-vector，来表示对物品的分类（这样就不需要标签）了，因为在学习的过程中就会自动将类似的物品归于同一类，就类似于聚类算法了.

那么这种想法比较有代表性的技术为VQVAE，其具体的流程为:

将输入经过Encoder之后得到Embedaing，然后现在有一排向量Codebook(里面向量的个数也是你指定的)
将Embedaing逐一与Codebook中的向量进行计算相似度，并取其中相似度最高的来作为Decoder的输入
训练的时候我们会要求Decoder的输出要与Encoder的输入越接近越好，从而来不断地改进Codebook中的各个向量

在这里插入图片描述

这样最终的结果就是让你Decoder的输入是离散的，只能在Codebook中进行选取，而且例如应用在语音的例子中，有可能最终学习得到的Codebook中的各个向量的不同维度可能会代表不同音标等等。但这里我有一个问题就是如上图应用在图像上，那么训练完成后如果放入Encoder的是之前训练从未见过的图像，那么输出还能够与输入相接近吗?

7、令Embedaing是一段文字

如果天马行空一点，能否让Embedaing是一段文字呢？例如我们给Encoder一篇文章，然后希望它输出一段文字，而Decoder再由这段文字来还原回原来的文章。那么此时这个Embedaing是否可以认为是文章的摘要呢?

在这里插入图片描述

如果真的将这个想法进行实现会发现： Embedaing虽然确实是一段文字，但是它经常是我们人类看不懂的文字，即在我们看来是毫无逻辑的文字无法作为摘要，但这可以认为是En和De之间发明的暗号，它们用这些文字就可以实现输入和输出的文章都极其相似。那么如果希望中间的Embedaing是我们能够看得懂的文字，我们可以加上GAN的思想，即加上一个辨别器，该辨别器是学习了很多人类写文章的句子，它能够分辨一段文字是否是人类能够理解的逻辑，那么这就会使得En不断地调整自己的输出，希望能够欺骗过辨别器，让它认为是人类写出来的句子，因此Embedaing也就越来越接近于摘要的功能了！。

在这里插入图片描述

8、其他应用

8.1、生成器

训练完Auto-encoder后，由于Decoder是接受一个向量，生成一个输出（例如图像），那么就可以认为这个Decoder就是一个生成器，因此可以单独拿出来作为一个生成器使用:

8.2、压缩

将Encoder训练完成后它相当于接受一个输入（例如图片）然后得到向量，那么这个向量通常是低维度的，那么我们可以认为是进行了压缩，而Decoder就是进行了解压缩。但需要注意的是由于De输出的结果无法与原始的输入一模一样，因此这样的压缩是有损的.

8.3、异常检测

我们如果想要做一个异常检测系统，那我们需要很多的资料来进行训练，而在某些应用场景中很可能我们只有非常多的正常的数据而只有非常少的异常数据，甚至于说有些异常的数据混杂在正常的数据中都分辨不出来，那么这时候Auto-encoder就可以派上用场了！如下图，我们先用正常的数据来训练我们的Auto-encoder，例如正常的数据是人脸:

在这里插入图片描述

那么训练完成之后，如果你进行检测时输入的也是相似的人脸，那么Auto-encoder就有较大的可能，使得输入与输出之间较为接近，即计算相似度就会较大；但是如果输入不是人脸，例如动漫人物，那么因为Auto-encoder没有看过这样的图片因此很难正确的将其还原，那么再计算输入与输出之间的相似度时就会较小，即:

在这里插入图片描述

最后此篇关于【机器学习】李宏毅——AE自编码器(Auto-encoder)的文章就讲到这里了,如果你想了解更多关于【机器学习】李宏毅——AE自编码器(Auto-encoder)的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

29

4

0

文章推荐：新项目决定用JDK17了

文章推荐：裁剪栅格—（偏移、发布后服务样式解决）

文章推荐：如何优化大场景实时渲染？HMSCore3DEngine这么做

[机器学习]低代码机器学习工具PyCaret库使用指北
PyCaret是一个开源、低代码Python机器学习库，能够自动化机器学习工作流程。它是一个端到端的机器学习和模型管理工具，极大地加快了实验周期，提高了工作效率。PyCaret本质上是围绕几个机器学习
Matlab-机器学习？
在我的研究进展中，我现在已经将寄生虫从图像中分离出来。寄生虫看起来像蠕虫。我希望 MATLAB 读取所有输入图像，查找类似深紫色图像的蠕虫，如果检测到，则给出检测到的答复。我尝试使用直方图比较，但我认
Python-机器学习
目前我正在尝试了解机器学习算法的工作方式，但我没有真正了解的一件事是预测标签的计算准确度与视觉混淆矩阵之间的明显差异。我会尽量解释清楚。这是数据集的片段(这里你可以看到 9 个样本(在真实数据集中大
机器学习-周志华
第一章绪论机器学习：致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中， “经验” 通常以“数据“形式存在，因此，机器学习所研究的主要内容，是关于在计算
机器学习-KNN算法
1. 算法原理（K-Nearest Neighbor）本质是通过距离判断两个样本是否相似，如果距离够近就认为他们足够相似属于同一类别找到离其最近的 k 个样本，并将这些样本称
机器学习-Kmeans
前言 K-means是一种经典的无监督学习算法，用于对数据进行聚类。K-means算法将数据集视为具有n个特征的n维空间，并尝试通过最小化簇内平方误差的总和来将数据点划分为簇。本文将介绍K-m
机器学习-集成学习LightGBM
目录前言介绍LightGBM LightGBM的背景和起源 L
机器学习--要学点什么
前言可以说掌握了机器学习，你就具备了与机器对话，充分利用机器为人类服务的能力。在人工智能时代，这将成为一项必备技能，就好比十年前你是编程大牛，二十年前你英语超好一样。因此，无论你是什么专业的
机器学习--起手式
几个贯穿始终的概念当我们把人类学习简单事物的过程抽象为几个阶段，再将这些阶段通过不同的方法具体化为代码，依靠通过计算机的基础能力-- 计算。我们就可以让机器能够“学会”一些简单的事物。
机器学习——人脸性别识别
1、选题背景人脸识别技术是模式识别和计算机视觉领域最富挑战性的研究课题之一，也是近年来的研究热点，人脸性别识别作为人脸识别技术
[大数据][机器学习]之ModelCard（模型卡片）介绍
每当我们在公有云或者私有云发布训练好的大数据模型，为了方便大家辨识、理解和运用，参照huggingface所制定的标准制作一个Model Card展示页，是种非常好的模型展示和组织形式。下面就是一
【机器学习】2.支持向量机
2. 支持向量机对偶优化拉格朗日乘数法可用于解决带条件优化问题，其基本形式为： \[\begin{gather} \min_w f(w),\\ \mathrm{s.t.} \quad
c++ - 机器学习/openVino代码中的Zoo文件的目的是什么
我正在尝试运行以下代码: https://github.com/opencv/opencv/blob/master/samples/dnn/classification.cpp 我在这里找到所有经过预
python - 构建决策树回归模型并预测样本输出 - 机器学习
我是机器学习新手。当我使用 scikit-learn 模块中的波士顿数据集练习具有默认参数的决策树回归模型时。在此链接解决方案( How to Build a Decision tree Regre
matlab - 机器学习 - 在训练数据中引入偏差
我有用于训练的数据。当我将其输入神经网络时，该数据出现 3% 的错误。我知道这些数据有一定的过度代表性 - 例如，第 5 类的示例大约是其他类的十分之一。我的作业指出，我可以通过偏置训练数据(即删
python - 机器学习-多标签分类SVM
我在 Python 的多类分类中使用 SVM 时遇到问题。事实上，问题在于性别分类(来自图像)，其中训练数据集仅包含“y=1”或“ y=-1”作为类标签(二进制)。但是，在预测中，如果是男性，我必须预
python - 机器学习(对抗性图像)
以防万一你们不知道，对抗性图像是属于某个类别的图像，但随后被扭曲，而人眼没有任何视觉感知差异，但网络错误地将其识别为完全不同的类别。有关此内容的更多信息，请参见此处: http://karpathy
python - 机器学习，特征工程和呈现模型的常用技术有哪些？
我正在进行一个 ML 语言识别项目 (Python)，该项目需要具有高维特征输入的多类分类模型。目前，我所能做的就是通过反复试验来提高准确性。无意识地结合可用的特征提取算法和可用的机器学习模型，看看
python - 机器学习、逻辑回归
import numpy as np def sigmoid(x): return 1.0/(1+np.asmatrix(np.exp(-x))) def graD(X,y,alpha,s0,
python - 列表中元素的识别 - 机器学习
所以我有多个列表: ['disney','england','france'] ['disney','japan'] ['england', 'london'] ['disney', 'france'

首页

博学

6Ren·AI

商城