gpt4 book ai didi

python - Gensim docvecs.most_similar 返回不存在的 ID

转载 作者:行者123 更新时间:2023-11-28 17:18:09 26 4
gpt4 key购买 nike

我正在尝试创建一种算法,该算法能够显示与特定文档相似的前 n 个文档。为此,我使用了 gensim doc2vec。代码如下:

model = gensim.models.doc2vec.Doc2Vec(size=400, window=8, min_count=5, workers = 11, 
dm=0,alpha = 0.025, min_alpha = 0.025, dbow_words = 1)

model.build_vocab(train_corpus)

for x in xrange(10):
model.train(train_corpus)
model.alpha -= 0.002
model.min_alpha = model.alpha
model.train(train_corpus)

model.save('model_EN_BigTrain')

sims = model.docvecs.most_similar([408], topn=10)

sims var 应该给我 10 个元组,第一个元素是文档的 ID,第二个元素是分数。问题是某些 ID 与我的训练数据中的任何文档都不对应。

一段时间以来,我一直在尝试理解不在我的训练数据中的 ID,但我没有看到任何逻辑。

Ps: 这是我用来创建我的 train_corpus 的代码

def readData(train_corpus, jData):

print("The response contains {0} properties".format(len(jData)))
print("\n")
for i in xrange(len(jData)):
print "> Reading offers from Aux array"
if i % 10 == 0:
print ">>", i, "offers processed..."

train_corpus.append(gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(jData[i][1]), tags=[jData[i][0]]))
print "> Finished processing offers"

作为 aux 数组的每个位置,一个数组中的位置 0 是一个 int(我想成为 id),位置 1 是一个描述

提前致谢。

最佳答案

您是否使用纯整数 ID 作为您的 标签,但没有完全使用从 0 到您的 MAX_DOC_ID 的所有整数?

如果是这样,那就可以解释该范围内标签的出现。当您使用纯整数时,gensim Doc2Vec 避免创建字典映射提供的标签到其内部向量数组中的索引位置——并且只使用整数本身。

因此必须分配内部向量数组以包含 MAX_DOC_ID + 1 行。与所有位置一样,与未使用的 ID 对应的任何行仍被初始化为随机向量,但不会接受来自实际文本示例的任何训练以将它们插入有意义的相对位置。因此,这些随机初始化但未经训练的向量可能会出现在以后的 most_similar() 结果中。

为避免这种情况,要么仅使用从 0 到您需要的最后一个 ID 的连续整数。或者,如果您能负担得起字符串到索引映射的内存成本,请使用字符串标签而不是普通整数。或者,保留有效 ID 的额外记录并从结果中手动过滤不需要的 ID。

另外:通过在 Doc2Vec 模型初始化中不指定 iter=1,默认的 iter=5 将生效,这意味着每次调用 train () 对您的数据进行 5 次迭代。奇怪的是,你的 xrange(10) for-loop 包括两次单独调用 train() 每次迭代(第一个只是使用已经在的 alpha/min_alpha地方)。所以你实际上对数据进行了 10 * 2 * 5 = 100 次传递,学习率计划很奇怪。

我建议,如果你想要 10 遍只设置 iter=10,保持默认的 alpha/min_alpha 不变,然后调用 train() 只有一次。该模型将进行 10 次传递,从其起始值到结束值平滑地管理 alpha。

关于python - Gensim docvecs.most_similar 返回不存在的 ID,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43051902/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com