gpt4 book ai didi

python - gensim dovecs.doctags 索引不正确

转载 作者:行者123 更新时间:2023-12-01 02:04:51 25 4
gpt4 key购买 nike

我正在为一个机器学习研究项目处理大量 Yelp 评论数据集。到目前为止,Gensim 运行良好,但是,当我使用 doc2vec.build_vocab() 对我拥有的超过 5,000,000 个文档构建词汇表时......索引似乎全部收集到一个 64 键字典中(当然不应该是这样)。

下面是我为标记文档、构建词汇表和训练模型而编写的脚本。

import os
import time
import pandas as pd
import numpy as np
from collections import namedtuple
from gensim.models.doc2vec import Doc2Vec
from keras.preprocessing.text import text_to_word_sequence

# keras helper function
def text2_word_seq(review):
return text_to_word_sequence(review,
filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
lower=True, split=" ")

# instantiate the model
d2v = Doc2Vec(vector_size=300,
window=6, min_count=5, workers=os.cpu_count()-1)

chunksize = 5000
train_data = pd.read_json("dataset/review.json",
chunksize=chunksize,
lines=True)

Review = namedtuple('Review', 'words tags')
documents = list()
for i, data in enumerate(train_data):
print("Looked at %d chunks, %d documents" %
(i, i*chunksize), end='\r', flush=True)
users = data.user_id.values
for j, review in enumerate(data.text):
documents.append(Review(text2_word_seq(review), users[j]))

# build the vocabulary
d2v.build_vocab(documents.__iter__(), update=False,
progress_per=100000, keep_raw_vocab=False, trim_rule=None)

# train the model
d2v.train(documents, total_examples=len(documents), epochs=10)
d2v.save('d2v-model-v001')

保存模型并使用 genim.models.Doc2Vec.load() 加载模型后,模型的 docvecs.doctags 长度为 64。我使用的每个标签构建词汇表时是用户 ID。它不一定是唯一的,但有数千个用户(不是 64 个)。此外,标签显示为单个字符 - 这是不期望的......

>>> len(x.docvecs.doctags)

64

>>> x.docvecs.doctags

{'Y': Doctag(offset=27, word_count=195151634, doc_count=1727798),
'j': Doctag(offset=47, word_count=198241878, doc_count=1739169),
'4': Doctag(offset=17, word_count=195902251, doc_count=1728095),
'J': Doctag(offset=50, word_count=197884244, doc_count=1741666),
'W': Doctag(offset=41, word_count=198804200, doc_count=1741269),
'O': Doctag(offset=23, word_count=196212468, doc_count=1728735),
'o': Doctag(offset=9, word_count=194177928, doc_count=1709768),
'n': Doctag(offset=3, word_count=193799059, doc_count=1714620),
'3': Doctag(offset=34, word_count=197320036, doc_count=1725467),
'F': Doctag(offset=10, word_count=195614702, doc_count=1729058) ...

我在这里做错了什么?

最佳答案

文本示例的 tags 属性应该是标签列表。 (它可以是只包含单个标签的列表,但它必须是一个列表。)

如果您提供一个字符串,对于需要 lis 的代码来说,它将看起来像一个字符字符串列表。因此,您只需训练少量的单字符标签,即您提供的任何 tags 字符串中出现的每个唯一字符一个。

关于python - gensim dovecs.doctags 索引不正确,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49183643/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com