gpt4 book ai didi

python - 标签 'Text_4' 在训练语料库中未见/无效

转载 作者:太空宇宙 更新时间:2023-11-03 13:56:14 24 4
gpt4 key购买 nike

我需要一些帮助来诊断我在某些文本向量过程中遇到的一些问题。实际上,我正在尝试应用 doc2vec 词嵌入来获取用于分类任务的向量。运行代码后,我遇到了一些错误,这些错误很难弄清楚,因为我还很新。下面是代码和输出

    def constructLabeledSentences(data):
sentences=[]
for index, row in data.iteritems():
sentences.append(TaggedDocument(utils.to_unicode(row).split(), ['Text' + '_%s' % str(index)]))
return sentences

x_raw_doc_sentences = constructLabeledSentences(x_raw_train['Text'])
x_raw_doc_model = Doc2Vec(min_count=5, window=5, vector_size=300, sample=0.001, negative=5, workers=4, epochs=10,seed=1)
x_raw_doc_model.build_vocab(x_raw_doc_sentences)
x_raw_doc_model.train(x_raw_doc_sentences, total_examples=x_raw_doc_model.corpus_count, epochs=x_raw_doc_model.epochs)

运行模型后,我尝试使用以下方法提取向量:

x_raw_doc_train_arrays = np.zeros((x_raw_train.shape[0], 300))
for i in range (x_raw_train.shape[0]):
x_raw_doc_train_arrays[i]=x_raw_doc_model.docvecs['Text_'+str(i)]

这是我得到的输出:

---------------------------------------------------------------------------
KeyError Traceback (most recent call last)
<ipython-input-106-bc0222fef295> in <module>()
1 x_raw_doc_train_arrays = np.zeros((x_raw_train.shape[0], 300))
2 for i in range (x_raw_train.shape[0]):
----> 3 x_raw_doc_train_arrays[i]=x_raw_doc_model.docvecs['Text_'+str(i)]
4
5

~\AppData\Local\Continuum\Anaconda3\lib\site-packages\gensim\models\keyedvectors.py in __getitem__(self, index)
1197 return self.vectors_docs[self._int_index(index, self.doctags, self.max_rawint)]
1198 return vstack([self[i] for i in index])
-> 1199 raise KeyError("tag '%s' not seen in training corpus/invalid" % index)
1200
1201 def __contains__(self, index):

KeyError: "tag 'Text_4' not seen in training corpus/invalid"

我是否做错了什么,或者我没有做什么应该做的事情?

最佳答案

您是否查看过 sentences 以确保包含 'Text_4'tagsTaggedDocument 是展示?

如果是这样,该文档是否有任何特殊之处可能会阻止它贡献其标签?例如,最初或在应用单词的 min_count 并忽略所有稀有单词之后(这通常是矢量质量的好主意),它是否为空?

另请注意,您可以使用原始整数作为 tags 中的各个标签值。 (在这种情况下,docvecs 数组被初始化为包含所有索引的向量,直到您使用的最高索引 - 因此像 4 这样的值对应于 no- op 示例得到一个向量,但在训练过程中它根本没有被调整,保持其初始化的随机值。)

关于python - 标签 'Text_4' 在训练语料库中未见/无效,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49585674/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com