gpt4 book ai didi

python - 我们可以使用自制的语料库使用 gensim 训练 LDA 吗?

转载 作者:太空狗 更新时间:2023-10-29 20:44:01 28 4
gpt4 key购买 nike

我必须应用 LDA(潜在狄利克雷分配)从我收集的 20,000 份文档的数据库中获取可能的主题。

我如何使用这些文档而不是其他可用的语料库(如布朗语料库或英语维基百科)作为训练语料库?

可以引用this页面。

最佳答案

在浏览了Gensim包的文档后,我发现一共有4种方法可以将文本存储库转换为语料库。

语料库共有4种格式:

  1. 市场矩阵 (.mm)
  2. 支持向量机光 (.svmlight)
  3. Blie 格式 (.lad-c)
  4. 低格式 (.low)

在这个问题中,如上所述,数据库中共有 19,188 个文档。必须阅读每份文档并从句子中删除停用词和标点符号,这可以使用 nltk 完成。

import gensim
from gensim import corpora, similarities, models

##
##Text Preprocessing is done here using nltk
##

##Saving of the dictionary and corpus is done here
##final_text contains the tokens of all the documents

dictionary = corpora.Dictionary(final_text)
dictionary.save('questions.dict');
corpus = [dictionary.doc2bow(text) for text in final_text]
corpora.MmCorpus.serialize('questions.mm', corpus)
corpora.SvmLightCorpus.serialize('questions.svmlight', corpus)
corpora.BleiCorpus.serialize('questions.lda-c', corpus)
corpora.LowCorpus.serialize('questions.low', corpus)

##Then the dictionary and corpus can be used to train using LDA

mm = corpora.MmCorpus('questions.mm')
lda = gensim.models.ldamodel.LdaModel(corpus=mm, id2word=dictionary, num_topics=100, update_every=0, chunksize=19188, passes=20)

通过这种方式,可以将他的数据集转换为语料库,语料库可以使用 gensim 包使用 LDA 进行主题建模训练。

关于python - 我们可以使用自制的语料库使用 gensim 训练 LDA 吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16254207/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com