- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
上下文
我正在尝试使用 Latent Dirichlet allocation 从一组文本中提取主题来自 Scikit-Learn's decomposition module .这非常有效,除了找到/选择的主题词的质量。
在 Li et al (2017) 的文章中,作者描述了使用先前的主题词作为 LDA 的输入。他们手动选择 4 个主题以及与这些主题相关联/属于这些主题的主要词。对于这些词,他们将相关主题的默认值设置为高数字,将其他主题的默认值设置为 0。对于所有主题 (1),所有其他词(不是为主题手动选择的)都被赋予相同的值。该值矩阵用作 LDA 的输入。
我的问题
如何使用 Scikit-Learn 的 LatentDirichletAllocation 模块使用自定义默认值矩阵(先前的主题词)作为输入来创建类似的分析?
(我知道有一个 topic_word_prior
参数,但它只需要一个 float 而不是具有不同“默认值”的矩阵。)
最佳答案
在查看了源代码和文档之后,在我看来最简单的事情就是子类 LatentDirichletAllocation
并且只覆盖 _init_latent_vars
方法。是在fit
中调用的方法来创建components_
属性,也就是用于分解的矩阵。通过重新实现这个方法,你可以按照你想要的方式设置它,特别是提高相关主题/特征的先验权重。您将在那里重新实现论文的初始化逻辑。
关于python - 具有先前主题词的潜在狄利克雷分配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45170093/
我的应用将 SceneKit 内容的“页面”与图像和文本交替。当我从图像页面前进到新的 SceneKit 页面时,前一个 SceneKit 页面中的内容会短暂显示,然后被新内容替换。时髦。 我只使用一
我正在尝试处理(在 C# 中)包含一些数字数据的大型数据文件。给定一个整数数组,如何对其进行拆分/分组,以便如果下一个 n(两个或更多)是负数,则前一个 n 元素被分组。例如,在下面的数组中,应该使用
刚接触promises,研究过。所以我的代码和我的理解: sql.connect(config).then(function(connection) { return connection.req
目前我在 if (roobaf) block 中有一些代码,这取决于 foo 和 bar 是否为假。我可以在 block 内再次检查这些条件,但感觉像是不必要的代码重复。 if (foo) {
我是一名优秀的程序员,十分优秀!