- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在开展一个项目,我需要降低观察的维度,但仍能有效地表示它们。出于多种原因强烈建议使用自动编码器,但我不太确定这是最佳方法。
我有 1400 个维度约为 60,000 的样本,这太高了,我正试图将它们的维度降低到原始维度的 10%。我正在使用 theano 自动编码器 [ Link 】 而且成本好像一直在3万左右(很高)。我尝试增加 epochs 的数量或降低学习率但没有成功。我不是自动编码器方面的专家,所以我不确定如何从这里开始或何时停止尝试。
我还可以运行其他测试,但在继续之前,我想听听您的意见。
您是否认为数据集太小(我可以再添加 600 个样本,总共约 2000 个样本)?
您认为使用堆叠自动编码器会有帮助吗?
我应该继续调整参数(周期和学习率)吗?
由于数据集是图片的集合,我尝试可视化自动编码器的重建结果,而我得到的只是每个样本的相同输出。这意味着给定输入,自动编码器会尝试重建输入,但我得到的是任何输入的相同(几乎完全)图像(这看起来像是数据集中所有图像的平均值)。这意味着内部表示不够好,因为自动编码器无法从中重建图像。
数据集:1400 - 2000 张扫描书籍图像(包括封面),每张约 60.000 像素(转换为包含 60.000 个元素的特征向量)。每个特征向量都在 [0,1] 中归一化,最初的值在 [0,255] 中。
问题:使用自动编码器降低它们的维度(如果可能)
如果您需要任何额外的信息,或者如果我遗漏了一些可能有助于更好地理解问题的信息,请添加评论,我很乐意帮助您 =)。
注意:我目前正在对整个数据集运行更多时期的测试,我会根据结果相应地更新我的帖子,不过这可能需要一段时间。
最佳答案
自动编码器之所以有用,部分原因在于它们可以学习非线性降维。然而,还有其他降维技术,它们比自动编码器快得多。扩散图是一种流行的图;局部线性嵌入是另一种。我已经在 2000 多个 60k 维数据(也包括图像)上使用了扩散图,它在一分钟内就起作用了。
这是一个使用 numpy 等的简单 Python 实现:
def diffusion_maps(data, d, eps=-1, t=1):
"""
data is organized such that columns are points. so it's 60k x 2k for you
d is the target dimension
eps is the kernel bandwidth, estimated automatically if == -1
t is the diffusion time, 1 is usually fine
"""
from scipy.spatial import pdist, squareform
from scipy import linalg as la
import numpy as np
distances = squareform(pdist(data.T))
if eps == -1:
# if a kernel bandwidth was not supplied,
# just use the distance to the tenth-nearest neighbor
k = 10
nn = np.sort(distances)
eps = np.mean(nn[:, k + 1])
kernel = np.exp(-distances ** 2 / eps ** 2)
one = np.ones(n_samples)
p_a = np.dot(kernel, one)
kernel_p = walk / np.outer(p_a, p_a)
dd = np.dot(kernel_p, one) ** 0.5
walk = kernel_p / np.outer(dd, dd)
vecs, eigs, _ = la.svd(walk, full_matrices=False)
vecs = vecs / vecs[:, 0][:, None]
diffusion_coordinates = vecs[:, 1:d + 1].T * (eigs[1:d + 1][:, None] ** t)
return diffusion_coordinates
扩散 map 的要点是您对数据进行随机游走,这样您就更有可能访问附近的点而不是远处的点。然后你可以定义点之间的距离(扩散距离),它本质上是在所有可能路径上两点之间移动的平均概率。诀窍是这实际上非常容易计算;您需要做的就是对角化矩阵,然后使用其特征向量将数据嵌入到低维空间中。在这种嵌入中,欧几里德距离是扩散距离,直到近似误差。
关于python - 高维数据的自动编码器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32426221/
我有课 class Header { @FCBTag(type="type1") --My custom annotation int a = "valueA"; @FCBTa
我一直在使用 Apache MINA 并正在学习 Netty。我过去使用过 MINA 累积编码器/解码器,我有兴趣看看 Netty 是否有类似的功能。我查看了 API,但没有看到任何内容。 最佳答案
我有一组使用 wsdl2java (Axis 1.4) 创建的类,我正在寻找一种方法来解码和编码来自/到字符串和对象的数据。我已经编写了一个 JAXB 解码器,它适用于我们的一些较新的内部对象,因为我
在我的自定义类 WLNetworkClient 中,我必须实现这样的方法: required init(coder aDecoder: NSCoder) { fatalError("init(
基于 transformer 的编码器-解码器模型是 表征学习 和 模型架构 这两个领域多年研究成果的结晶。本文简要介绍了神经编码器-解码器模型的历史,更多背景知识,建议读者阅读由 Seba
在使用 FFMPEG android java 库时发生以下异常的视频播放速度(使视频变慢)。 [aac @ 0x416c26f0] The encoder 'aac' is experimental
我正在从一个程序运行 ffmpeg,我们自己构建了 ffmpeg(我们没有使用包管理器或预构建的东西安装它)。 这是构建的命令: 2020-07-31 12:14:11.942 INFO ffmpeg
许多基于LSTM的seq2seq编码器-解码器架构教程(例如英法翻译),将模型定义如下: encoder_inputs = Input(shape=(None,)) en_x= Embedding(
如何覆盖使用 marshmallow 的 JSON 编码器库,以便它可以序列化 Decimal字段?我想我可以通过覆盖 json_module 来做到这一点在基地Schema或 Meta课,但我不知道
在我的 Grails 2.5.0 应用程序中,我使用了一组自定义 JSON 编码器来严格控制由我的 REST 端点返回的 JSON 格式。目前我在这样的服务中注册这些编码器 class Marshal
我需要多个自定义 JSON 编码器,因为我想针对不同的目的以不同的方式进行编码。我知道如何使用以下方法设置自定义编码器应用程序: JSON.registerObjectMarshaller(MyCla
查看文档,它是这样说的: https://netty.io/4.0/api/io/netty/channel/ChannelPipeline.html A user is supposed to ha
我希望为以下案例类提供 JSON 编码器: import io.circe.generic.extras.Configuration final case class Hello[T]( so
我正在构建一个 JPEG 图像编码器。就目前情况而言,为了对图像进行编码,用户输入他们希望编码的文件的名称以及由此创建的文件的名称。 我希望用户能够在命令行中设置编码的质量。我尝试重命名 new Jp
我有想要在 webview 中显示的 html 文本。 如specification ,数据必须经过 URI 转义。所以我尝试使用 URLEncoder.encode() 函数,但这对我没有帮助,因为
我目前正在自己实现 PNG 滤镜。我正在使用神经网络尝试创建比当前现有的 PNG 过滤器更好的预测: 0 - 无 1 - 子 2 - 向上 3 - 平均 4 - 派斯 5 - 我的实现(使用神经网
让我们假设我们有与 Schema 一致的 XML 和带有一些公共(public)字段的 Java 类: public clas
在我的 Java 应用程序中,我正在寻找 URLEncoder.encode(String s, String enc) 的流媒体版本.我想使用“application/x-www-form-urle
我确实有一个对象层次结构,我想使用“import javax.xml.bind.Marshaller”将其从 Java 对象转换为 xml。我的java类文件被编码在“Cp1252”中,我无法更改它。
使用 Netty 4.0.27 和 Java 1.8.0_20 所以我试图通过构建一个简单的聊天服务器(我猜是典型的网络教程程序?)来了解 Netty 的工作原理。设计我自己的简单协议(protoco
我是一名优秀的程序员,十分优秀!