gpt4 book ai didi

python - 具有先前主题词的潜在狄利克雷分配

转载 作者:太空宇宙 更新时间:2023-11-04 02:45:52 25 4
gpt4 key购买 nike

上下文

我正在尝试使用 Latent Dirichlet allocation 从一组文本中提取主题来自 Scikit-Learn's decomposition module .这非常有效,除了找到/选择的主题词的质量。

Li et al (2017) 的文章中,作者描述了使用先前的主题词作为 LDA 的输入。他们手动选择 4 个主题以及与这些主题相关联/属于这些主题的主要词。对于这些词,他们将相关主题的默认值设置为高数字,将其他主题的默认值设置为 0。对于所有主题 (1),所有其他词(不是为主题手动选择的)都被赋予相同的值。该值矩阵用作 LDA 的输入。

我的问题

如何使用 Scikit-Learn 的 LatentDirichletAllocation 模块使用自定义默认值矩阵(先前的主题词)作为输入来创建类似的分析?

(我知道有一个 topic_word_prior 参数,但它只需要一个 float 而不是具有不同“默认值”的矩阵。)

最佳答案

在查看了源代码和文档之后,在我看来最简单的事情就是子类 LatentDirichletAllocation 并且只覆盖 _init_latent_vars 方法。是在fit中调用的方法来创建components_属性,也就是用于分解的矩阵。通过重新实现这个方法,你可以按照你想要的方式设置它,特别是提高相关主题/特征的先验权重。您将在那里重新实现论文的初始化逻辑。

关于python - 具有先前主题词的潜在狄利克雷分配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45170093/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com