gpt4 book ai didi

python - Hierarchical Dirichlet Process Gensim 主题数与语料库大小无关

转载 作者:太空狗 更新时间:2023-10-29 17:27:23 31 4
gpt4 key购买 nike

我在一组文档上使用 Gensim HDP 模块。

>>> hdp = models.HdpModel(corpusB, id2word=dictionaryB)
>>> topics = hdp.print_topics(topics=-1, topn=20)
>>> len(topics)
150
>>> hdp = models.HdpModel(corpusA, id2word=dictionaryA)
>>> topics = hdp.print_topics(topics=-1, topn=20)
>>> len(topics)
150
>>> len(corpusA)
1113
>>> len(corpusB)
17

为什么主题数量与语料库长度无关?

最佳答案

@Aaron 的上述代码因 gensim API 更改而损坏。我重写并简化如下。截至 2017 年 6 月,适用于 gensim v2.1.0

import pandas as pd

def topic_prob_extractor(gensim_hdp):
shown_topics = gensim_hdp.show_topics(num_topics=-1, formatted=False)
topics_nos = [x[0] for x in shown_topics ]
weights = [ sum([item[1] for item in shown_topics[topicN][1]]) for topicN in topics_nos ]

return pd.DataFrame({'topic_id' : topics_nos, 'weight' : weights})

关于python - Hierarchical Dirichlet Process Gensim 主题数与语料库大小无关,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31543542/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com