- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我需要一些帮助来诊断我在某些文本向量过程中遇到的一些问题。实际上,我正在尝试应用 doc2vec 词嵌入来获取用于分类任务的向量。运行代码后,我遇到了一些错误,这些错误很难弄清楚,因为我还很新。下面是代码和输出
def constructLabeledSentences(data):
sentences=[]
for index, row in data.iteritems():
sentences.append(TaggedDocument(utils.to_unicode(row).split(), ['Text' + '_%s' % str(index)]))
return sentences
x_raw_doc_sentences = constructLabeledSentences(x_raw_train['Text'])
x_raw_doc_model = Doc2Vec(min_count=5, window=5, vector_size=300, sample=0.001, negative=5, workers=4, epochs=10,seed=1)
x_raw_doc_model.build_vocab(x_raw_doc_sentences)
x_raw_doc_model.train(x_raw_doc_sentences, total_examples=x_raw_doc_model.corpus_count, epochs=x_raw_doc_model.epochs)
运行模型后,我尝试使用以下方法提取向量:
x_raw_doc_train_arrays = np.zeros((x_raw_train.shape[0], 300))
for i in range (x_raw_train.shape[0]):
x_raw_doc_train_arrays[i]=x_raw_doc_model.docvecs['Text_'+str(i)]
这是我得到的输出:
---------------------------------------------------------------------------
KeyError Traceback (most recent call last)
<ipython-input-106-bc0222fef295> in <module>()
1 x_raw_doc_train_arrays = np.zeros((x_raw_train.shape[0], 300))
2 for i in range (x_raw_train.shape[0]):
----> 3 x_raw_doc_train_arrays[i]=x_raw_doc_model.docvecs['Text_'+str(i)]
4
5
~\AppData\Local\Continuum\Anaconda3\lib\site-packages\gensim\models\keyedvectors.py in __getitem__(self, index)
1197 return self.vectors_docs[self._int_index(index, self.doctags, self.max_rawint)]
1198 return vstack([self[i] for i in index])
-> 1199 raise KeyError("tag '%s' not seen in training corpus/invalid" % index)
1200
1201 def __contains__(self, index):
KeyError: "tag 'Text_4' not seen in training corpus/invalid"
我是否做错了什么,或者我没有做什么应该做的事情?
最佳答案
您是否查看过 sentences
以确保包含 'Text_4'
的 tags
的 TaggedDocument
是展示?
如果是这样,该文档是否有任何特殊之处可能会阻止它贡献其标签?例如,最初或在应用单词的 min_count
并忽略所有稀有单词之后(这通常是矢量质量的好主意),它是否为空?
另请注意,您可以使用原始整数作为 tags
中的各个标签值。 (在这种情况下,docvecs
数组被初始化为包含所有索引的向量,直到您使用的最高索引 - 因此像 4
这样的值对应于 no- op 示例会得到一个向量,但在训练过程中它根本没有被调整,保持其初始化的随机值。)
关于python - 标签 'Text_4' 在训练语料库中未见/无效,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49585674/
我尝试使用R,jiebaR和语料库为中文语音生成词云并获取词频,但无法制作语料库。这是我的代码: library(jiebaR) library(stringr) library(corpus) cu
我试图在 R 中做一些词干化,但它似乎只适用于单个文档。我的最终目标是一个术语文档矩阵,它显示文档中每个术语的频率。 下面是一个例子: require(RWeka) require(tm) requi
我一直在利用许多不同的语料库进行自然语言处理,并且我一直在寻找使用 Wordnet Word Senses 注释的语料库。 我知道可能没有一个包含这些信息的大语料库,因为语料库需要手动构建,但必须有一
请,请,请帮助。我有一个文件夹,里面装满了我想使用 NLTK 进行分析的文本文件。我如何将其导入为语料库,然后在其上运行 NLTK 命令?我已经将下面的代码放在一起,但它给了我这个错误: ra
除了nltk自带的语料库之外,我想用自己的遵循相同词性规则的语料库来训练它。如何找到它正在使用的语料库,以及如何添加我自己的语料库(另外,不是作为替代)? 编辑:这是我当前使用的代码: inpy =
我想使用 tweeter_sample 语料库训练 nltk,但当我尝试按类别加载示例时出现错误。 首先我尝试这样: from nltk.corpus import twitter_samples d
我想使用 tweeter_sample 语料库训练 nltk,但当我尝试按类别加载示例时出现错误。 首先我尝试这样: from nltk.corpus import twitter_samples d
我正在尝试对大型文本文件中最常用的词进行排名 - - 爱丽丝梦游仙境(公共(public)领域)。这是爱丽丝梦游仙境 Dropbox和 Pastebin .它按预期运行,有 1818 个“the”实例
我希望对一些本地 Lilypond (.ly) 文件进行语料库研究,但我无法将它们导入本地 music21 语料库。 我只能假设答案在 music21.converter 上页面,但我似乎无法解开它。
有没有办法训练现有的 Apache OpenNLP POS Tagger 模型?我需要为特定于我的应用程序的模型添加更多专有名词。当我尝试使用以下命令时: opennlp POSTaggerTrain
我需要从一个巨大的数据帧(或任何与 r 数据帧等效的 python)创建一个语料库,方法是将它分成与用户名一样多的数据帧。 例如,我从这样的数据框开始: username search_term
我已经下载了 BLLIP语料库并想将其导入 NLTK。问题的答案中描述了我发现的一种方法 How to read corpus of parsed sentences using NLTK in py
假设我有以下内容: x10 = data.frame(id = c(1,2,3),vars =c('top','down','top'), text1=c('this is text','s
我想使用 R 的分布式计算 tm 包(称为 tm.plugin.dc)制作一个包含 1 亿条推文的文本语料库。这些推文存储在我笔记本电脑上的一个大型 MySQL 表中。我的笔记本电脑很旧,所以我使用的
我的项目使用NLTK。如何列出项目的语料库和模型要求以便自动安装它们?我不想点击 nltk.download() GUI,一一安装软件包。 此外,有什么方法可以卡住相同的需求列表(例如pip free
如何在pytorrch中读入.txt文件(语料库)到torchtext? 我只看到 data.Dataset 的示例数据集和 data.TabularData 的 csv、json 和 tsv。 ht
我已经下载了 Conll 2003 语料库(“eng.train”)。我想用它来使用 python crfsuite 训练来提取实体。但我不知道如何加载这个文件进行训练。 我找到了这个示例,但它不适用
我一直在尝试为特定领域和新实体训练命名实体识别模型。似乎没有一个完整的适合此的管道,并且需要使用不同的包。 我想给NLTK一个机会。我的问题是,如何训练 NLTK NER 使用 ieer 语料库对新实
使用 JupyterLab 打开我的 EMR 集群后。我无法使用 nltk.download() 下载额外的语料库。 代码 nltk.download('wordnet') 错误 I/O operat
有没有人建议在哪里可以找到用于小型语料库的日常英语文本的文件或集合?我一直在使用 Gutenberg Project 书籍作为工作原型(prototype),并希望融入更多现代语言。一个 recent
我是一名优秀的程序员,十分优秀!