python - pyLDAvis : Validation error on trying to visualize topics-6ren

python - pyLDAvis : Validation error on trying to visualize topics

转载作者：太空狗更新时间：2023-10-30 00:16:07

26

4

我尝试使用 gensim 为 300000 条记录生成主题。在尝试可视化主题时，我收到验证错误。我可以在模型训练后打印主题，但在使用 pyLDAvis 时失败

# Running and Training LDA model on the document term matrix.
ldamodel1 = Lda(doc_term_matrix1, num_topics=10, id2word = dictionary1, passes=50, workers = 4)

(ldamodel1.print_topics(num_topics=10, num_words = 10))
 #pyLDAvis
d = gensim.corpora.Dictionary.load('dictionary1.dict')
c = gensim.corpora.MmCorpus('corpus.mm')
lda = gensim.models.LdaModel.load('topic.model')

#error on executing this line
data = pyLDAvis.gensim.prepare(lda, c, d)

在 pyLDAvis 上运行后，我在尝试时遇到以下错误

---------------------------------------------------------------------------
ValidationError                           Traceback (most recent call last)
<ipython-input-53-33fd88b65056> in <module>()
----> 1 data = pyLDAvis.gensim.prepare(lda, c, d)
      2 data

C:\ProgramData\Anaconda3\lib\site-packages\pyLDAvis\gensim.py in prepare(topic_model, corpus, dictionary, doc_topic_dist, **kwargs)
    110     """
    111     opts = fp.merge(_extract_data(topic_model, corpus, dictionary, doc_topic_dist), kwargs)
--> 112     return vis_prepare(**opts)

C:\ProgramData\Anaconda3\lib\site-packages\pyLDAvis\_prepare.py in prepare(topic_term_dists, doc_topic_dists, doc_lengths, vocab, term_frequency, R, lambda_step, mds, n_jobs, plot_opts, sort_topics)
    372    doc_lengths      = _series_with_name(doc_lengths, 'doc_length')
    373    vocab            = _series_with_name(vocab, 'vocab')
--> 374    _input_validate(topic_term_dists, doc_topic_dists, doc_lengths, vocab, term_frequency)
    375    R = min(R, len(vocab))
    376 

C:\ProgramData\Anaconda3\lib\site-packages\pyLDAvis\_prepare.py in _input_validate(*args)
     63    res = _input_check(*args)
     64    if res:
---> 65       raise ValidationError('\n' + '\n'.join([' * ' + s for s in res]))
     66 
     67 

ValidationError: 
 * Not all rows (distributions) in topic_term_dists sum to 1.

最佳答案

发生这种情况是因为 pyLDAvis 程序期望模型中的所有文档主题至少在语料库中出现一次。当您在制作语料库/文本之后和制作模型之前进行一些预处理时，可能会发生这种情况。

模型内部词典中的某个词未在您提供的词典中使用，这将导致失败，因为现在概率略小于 1。

您可以通过将缺失的词添加到您的语料库词典(或将词添加到语料库并从中制作词典)来解决此问题，或者您可以将此行添加到 site-packages\pyLDAvis\gensim.py 代码在“断言 topic_term_dists.shape[0] == doc_topic_dists.shape[1]”之前(应该是~第 67 行)

topic_term_dists = topic_term_dists / topic_term_dists.sum(axis=1)[:, None]

假设您的代码运行到那个点，这应该重新规范化主题分布而不丢失字典项。但请注意，最好将所有术语都包含在语料库中。

关于python - pyLDAvis : Validation error on trying to visualize topics，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47998685/

26

4

0

文章推荐： python - 第一批后 Tensorflow ResourceExhaustedError

文章推荐： python - 一旦我们的数据库变得太慢，我该如何创建按需报告？

文章推荐： c# - 将字符串映射到整数的哈希

文章推荐： python - 合并两个数据帧，其中一个包含间隔数据

topic-modeling - MALLET 中 Topic Models 的增量训练
根据槌documentation ，可以逐步训练主题模型: "-output-model [FILENAME] This option specifies a file to write a seri
python - TopicModel : How to query documents by topic model "topic"?
下面我创建了一个完整的可重现示例来计算给定 DataFrame 的主题模型。 import numpy as np import pandas as pd data = pd.DataFrame({
scala - KeeperErrorCode = NoNode for/brokers/topics/test-topic/partitions
在启动 Kafka 时出现以下错误。 KeeperErrorCode = NoNode for /brokers/topics/test-topic/partitions 任何帮助将不胜感激。最佳答
azure - 消息队列: Multiple Topics vs Generic Topics with Filters
我是这个范例的新手，所以请容忍我的愚蠢。我开始阅读这个主题是因为我正在构建一个物联网系统，该系统将使用消息队列来允许设备相互通信。我目前正在使用 Azure 的服务总线，但是我相信我的问题通常适用于
apache-kafka - 代理复制错误 "Not authorized to access topics: [Topic authorization failed.] "
我有三个 Kafka 经纪人( kafka_2.11-0.10.0.0 )每个经纪人的安全配置如下， listeners=PLAINTEXT://xxxx:9093,SASL_PLAINTEXT://
java - 如何修复RocketmqClient中的 ‘No topic route info in name server for the topic’异常
我使用apache-rocketmq发送消息，但出现异常。我尝试了csdn上的很多解决方案，但不起作用。现在我不知道如何处理它。这是一个 Linux 服务器，运行 Rocketmq 4.2.0、ja
machine-learning - 使用一个 "majority topic"和多个 "minority topics"对语料库进行主题建模
我收集了一些文档，其中大部分都是关于同一主题的，其余的基本上都是随机主题。我希望将文档分类为它们是关于“多数主题”还是这些随机“少数主题”之一。如果我在这个只有 2 个主题的语料库上使用主题建模算法会
python - gensim LDA : How can i generate topics with different words for each topic?
我正在使用 gensim 包中的 LDA 算法来查找给定文本中的主题。我被问到生成的主题将包含每个主题的不同词，例如，如果主题 A 中包含“猴子”一词，那么其他主题的列表中不应包含“猴子”一词。到
.htaccess - htaccess 重定向 index.php?p=my topic title to/my-topic-title
我想使用 htaccess 更改我网站的 URL URL currently: example.com/index.php?p=my-topic-title I want to be like : e
java - JSON 解析错误 : Can not construct instance of io. starter.topic.Topic
我正在学习 Spring Boot 并制作了一个演示，但是当我发布一个添加对象的请求时，它不起作用! 错误信息是: { "timestamp": 1516897619316, "sta
java - Apache Kafka 客户端(Java): List topics and check whether topic is log compacted
背景我们公司有由 Zookeeper 管理的 Apache Kafka。我们的 Spring Boot 应用程序之一需要检查所有可用主题的列表，并列出哪些主题启用了日志压缩 (cleanup.pol
php - 算法问题 : select two stories per topic so that the same story is never selected for two different topics
在我的工作场所，我偶然发现了以下需要我解决的问题。尽管不是绝对需要，但首选解决方案。有一个包含一组故事的数据库，每个故事都有一组与之关联的主题。主题存储在单独的表中，格式为 (storyid, to
python - 将 pandas 中的 Topic-name 和 Description 转换为 Topic-Name、Words 和 Frequency
我有一个由主题名称、描述组成的 Pandas 数据框我正在尝试将其转换为主题名称、单词(出现在描述列中)及其频率我已经试过了，但它只给了我描述的单词和频率，而不是主题名称级别。 import nl
apache-kafka - kafka-topics.sh ---delete --topic '' testTopic'' 不适用于 kafka V 0.10.1
我尝试使用以下命令删除现有主题(我使用 kafka 管理控制台检查过)； #./kafka-topics.sh --zookeeper zookeeper.xx.com:2181/chroot --d
apache-kafka - Kafka 消费者 : fetching topic metadata for topics from broker [ArrayBuffer(id:0, 主机 :user-Desktop, 端口:9092)] 失败
试图在一台机器上运行 Kafka 生产者，在另一台机器上运行消费者。设置以下属性: 广告.host.name 广告端口但是在控制台消费者上收到以下错误: bin/kafka-console-con
python - GmailAPI : "Error sending test message to Cloud PubSub projects/[project-id]/topics/[topic-id] : User not authorized to perform this action."?
我正在使用 Gmail API，并尝试使用 Python 3.9 设置推送通知。当我尝试在 Gmail 收件箱上调用 watch() 时，出现错误，即使我已遵循针对类似问题给出的所有建议。错误如下:
topic-maps - 构建用于索引内容的主题层次结构
我希望构建一个主题 map 来对内容进行分类。例如，主题“艺术”可能有“艺术史”、“绘画”、“雕塑”等子类别。我已经抓取了一些在线资源，但遇到了一个与我希望如何使用层次结构有关的问题。我有很多内
topic-modeling - Mallet主题模型示例无法编译
我想在我的 Java 中编译 mallet(而不是使用命令行)，所以我将 jar 包含在我的项目中，并引用了来自以下示例的代码:http://mallet.cs.umass.edu/topics-de
java - 使用kafkastreams根据记录内容上的内容写入kafka Topic
我正在尝试根据父级中的记录内容从kafka中的一个主题(父级)写入另一个主题(子级)。如果我从父主题消费，则示例记录为 {"date":{"string":"2017-03-20"},"time":{
java - 通过两个进程访问Kafka Topic
我有一个 Kafka 生产者类，运行良好。生产者填充了 Kafka 主题。其代码如下: public class kafka_test { private final static String TO

首页

博学

6Ren·AI

商城

python - pyLDAvis : Validation error on trying to visualize topics