gpt4 book ai didi

python-2.7 - 实现文本文件的主题建模后,我得到了相似的词来描述所有主题,结果不准确。

转载 作者:行者123 更新时间:2023-12-02 03:10:45 24 4
gpt4 key购买 nike

from nltk.tokenize import RegexpTokenizer
from stop_words import get_stop_words
from gensim import corpora, models
import gensim
import os
from os import path
from time import sleep

tokenizer = RegexpTokenizer(r'\w+')
en_stop = set(get_stop_words('en'))
with open(os.path.join('c:\users\kaila\jobdescription.txt')) as f:
Reader = f.read()


texts = unicode(Reader, errors='replace')
tdm = []

#Converted all the text to lowercase for uniform analysis
raw = texts.lower()
#Tokenized the text to individual terms and created the stop list
tokens = tokenizer.tokenize(raw)
stopped_tokens = [i for i in tokens if not i in en_stop]
tdm.append(stopped_tokens)

dictionary = corpora.Dictionary(tdm)
corpus = [dictionary.doc2bow(i) for i in tdm]
sleep(3)
#Implemented the LdaModel
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=10, id2word = dictionary)
print(ldamodel.print_topics(num_topics=5, num_words=8))

问题是我的结果用相似的词来描述所有主题,而且概率太低了。我做错了什么吗?如果有人可以帮助我取得更好的结果,那就太好了。

以下是我的结果:

(0, u'0.019*will + 0.010*experience + 0.009*accounts + 0.009*finance + 0.008*accounting + 0.008*financial + 0.008*team + 0.007*reporting'), (4, u' 0.016*will + 0.009*finance + 0.009*experience + 0.008*management + 0.008*accounting + 0.007*role + 0.007*financial + 0.007*work'), (7, u'0.017*will + 0.013*experience + 0.012*finance + 0.008*role + 0.008*financial + 0.007*accounting + 0.007*accounts + 0.007*years'), (2, u'0.019*will + 0.011*experience + 0.010*finance + 0.008*role + 0.007*business + 0.007* accounts + 0.007*reporting + 0.007*work'), (5, u'0.013*will + 0.011*finance + 0.011*experience + 0.009*financial + 0.008*management + 0.008*accounting + 0.008*role + 0.007*please')

最佳答案

不,你没有做错任何事,但你误解了输出。 LDA 为每个主题下的所有词典单词生成概率分布。主题的数量等于您想要的主题数量。在这里,您提供的答案对我来说似乎是合乎逻辑的,因为您已经在每个主题下打印了主题 5 主题和主题 8 单词及其概率值。顺便说一句,概率值可能非常小,不用担心。

出现这种输出的一个可能原因可能是:用于训练 LDA 模型的数据集不够多样化,因此几个主题下的顶级词几乎相同,这也说明推断的主题彼此非常接近。如果您期望主题多样化,那么您需要针对所需主题数量的具有良好代表性的数据。

关于python-2.7 - 实现文本文件的主题建模后,我得到了相似的词来描述所有主题,结果不准确。,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40168109/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com