- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在 Keras 文档中的嵌入
https://keras.io/layers/embeddings/ ,对 mask_zero
的解释是
mask_zero: Whether or not the input value 0 is a special "padding" value that should be masked out. This is useful when using recurrent layers which may take variable length input. If this is True then all subsequent layers in the model need to support masking or an exception will be raised. If mask_zero is set to True, as a consequence, index 0 cannot be used in the vocabulary (input_dim should equal |vocabulary| + 2).
为什么 input_dim 需要是 2 + 词汇中的单词数?假设0被屏蔽了不能使用,那不应该就是1+字数吗?另一个额外的条目有什么用?
最佳答案
我认为这些文档有点误导。在正常情况下,您将 n
输入数据索引 [0, 1, 2, ..., n-1]
映射到向量,因此您的 input_dim
应该与您拥有的元素一样多
input_dim = len(vocabulary_indices)
一种等效的(但有点令人困惑)的表达方式以及文档的方式是说
1 + maximum integer index occurring in the input data.
input_dim = max(vocabulary_indices) + 1
如果启用屏蔽,则值 0
的处理方式会有所不同,因此您将 n
索引加一:[0, 1, 2, ... , n-1, n]
,因此你需要
input_dim = len(vocabulary_indices) + 1
或者
input_dim = max(vocabulary_indices) + 2
正如他们所说,文档在这里变得特别困惑
(input_dim should equal
|vocabulary| + 2
)
我将|x|
解释为集合的基数(相当于len(x)
),但作者的意思似乎是
2 + maximum integer index occurring in the input data.
关于python - Keras 嵌入层掩蔽。为什么 input_dim 需要是 |vocabulary| + 2?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43227938/
它必须有一个名字。我在考虑退化或未使用(旧的描述性不够)。有没有人想出一些描述性的东西来调用它? 最佳答案 Deprecated (在 Java 中)或 Obsolete (在 C# 中) 关于voc
我正在启动一个公益项目,该项目是世界上最大的琵琶音乐收藏的Web界面,从多个角度来看,这是一个具有挑战性的收藏。这些作品主要是从1400年到1600年,但范围从1200年代中期到今天。毋庸置疑,作品的
以下代码使用spaCy word vectors通过首先计算词汇表(超过一百万)中所有单词的余弦相似度,然后对最相似单词列表进行排序,找到与给定单词最相似的 20 个单词。 parser = Engl
我实例化了一个 sklearn.feature_extraction.text.CountVectorizer通过 vocabulary 参数传递一个词汇表来对象,但我得到一个 sklearn.uti
跨编程语言,我遇到过类似的 composite types不同的名字: Optional / Maybe Any Variant / Sum Record / Product 人们经常使用术语 词汇类
我正在使用ColumnTransformer运行一个非常简单的实验,目的是转换列数组,在此示例中为[“a”]: from sklearn.feature_extraction.text import
我已经训练了一个主题分类模型。然后,当我要将新数据转换为向量进行预测时,就会出错。它显示“NotFittedError:CountVectorizer - 词汇未安装。”但是,当我通过将训练数据拆分为
我正在尝试使用 scikit-learn/pandas 构建一个情感分析器。构建和评估模型有效,但尝试对新样本文本进行分类却行不通。 我的代码: import csv import pandas as
我正在尝试使用 scikit-learn/pandas 构建情绪分析器。构建和评估模型有效,但尝试对新示例文本进行分类却行不通。 我的代码: import csv import pandas as p
我有一个使用 Python 的 Gensim 库训练的 Word2vec 模型。我有一个标记化列表如下。词汇量是 34,但我只给出了 34 个中的几个: b = ['let', 'know', '
是否可以提前知道 CountVectorizer 是否会抛出 ValueError: empty vocabulary? 基本上,我有一个文档语料库,我想过滤掉那些无法通过 CountVectoriz
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 6 年前。
我在这里阅读了所有相关问题,但找不到有效的解决方案: 我的分类器创建: class StemmedTfidfVectorizer(TfidfVectorizer): def build_ana
使用 python 训练 word2vec 模型后 gensim ,如何找到模型词汇表中的单词数? 最佳答案 在最近的版本中,model.wv 属性包含单词和向量,并且 can 本身可以报告长度 -
我需要有目的地再创建 2 个表:一个表将存储标签和类别数据(类别可以有层次结构,但标签没有),另一个表存储标签、类别和内容之间的关系。但我对那两张 table 的名称很困惑。我确实是网络开发的新手。经
我正在尝试使用 Spark 的 MLLib 实现词向量化。我按照给出的例子 here . 我有一堆句子,我想将它们作为输入来训练模型。但我不确定这个模型是否采用句子或仅将所有单词作为字符串序列。 我的
在 Keras 文档中的嵌入 https://keras.io/layers/embeddings/ ,对 mask_zero 的解释是 mask_zero: Whether or not the i
我尝试使用 word2vec,但在尝试对任何单词执行任何操作时都会出错。这似乎是一个编码问题,这是我所做的: 初始化word2vec: import gensim, logging logging.b
我正在使用word2vec,我训练的wiki语料库,如果我输入的单词不在word2vec的词汇表中怎么办? 测试一下: model = word2vec.Word2Vec.load('model/'
目标:预测原始数据的标签 背景:我构建了一个 SVM 分类器 我正在使用以下代码: 0) 导入模块 import numpy as np from sklearn import cro
我是一名优秀的程序员,十分优秀!