- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
如果我们在LDA中选择20个主题,然后如果我们选择30个主题。所以我的问题是,这些结果是否会与这 20 个主题相交并产生相似的结果
最佳答案
简短的回答 - 不。 LDA 的工作方式是使用吉布斯采样器来获取文档向量上的狄利克雷分布。然后对该样本进行分配,因此由于采样随机性和分配不确定性,分配总是不同的,除非您定义显式随机种子并运行相同数量的主题 k。看看 Blei 等人的原始论文。 2003 了解 k 是如何定义的。
更新(关于评论):分层LDA(hLDA)试图通过遵循中餐馆模型构建主题级别来解决保留主题和子主题的问题。但它仍然不完美。
然而,扁平 LDA 的工作方式是查看文档而不是主题来产生进一步的结果。比如说,你得到主题 0(餐厅的第一张 table ),所有文档都尝试坐在那里,但空间不够,你创建了另一个主题 1,其中一些文档感觉更舒服,等等,等等。现在你就从从如何创建这些表的角度来看。但是有一件大事很关键 - 当您创建新表/主题 1 时,主题 0 会发生变化,因为某些文档已经离开第一个表,并将单词(或其共现概率)带到新表中,并且其中的所有单词鉴于新情况,主题 0 进行了重新洗牌。当您创建更多表/主题时,会发生同样的情况,并且之前的所有表/主题也会被重新估计。因此,当使用 30 个主题重新运行时,您将永远不会得到相同的 20 个主题。
关于machine-learning - 两个不同数量主题的 LDA 结果之间的相似性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24462879/
我需要在基于 Java 的应用程序中使用 Wordnet。我想: 搜索同义词集 找到同义词集之间的相似性/相关性 我的应用程序使用 RDF 图,我知道 Wordnet 有 SPARQL 端点,但我想最
假设我们有一个 IEnumerable Collection,其中包含 20 000 人 对象项。那么假设我们创建了另一个 Person 对象。 我们想列出所有与这个人相似的人。这意味着,例如,如果姓
我使用 JAWS 作为普通的 wordnet 来查找单词之间的相似性。 我安装了 wordnet 2.1 并添加了 jar 文件:edu.mit.jwi_2.1.4.jar 和 edu.sussex.
我用这段代码做了一个词嵌入: with open("text.txt",'r') as longFile: sentences = [] single= []
我正在尝试找出确定各种对象或数组之间的共性或相似性的最佳方法,并且有兴趣获得社区的意见。我目前正在用 javascript 构建一个早期研究原型(prototype),我需要采用一种巧妙的方式来比较对
我在将 Flash 游戏转换为 C# 时遇到问题。在 Flash 中我会使用这种语法: public function doMove() { eaze(this).to(actionTime,
我有一批形状为 (bs, m, n) 的向量(即维度为 mxn 的 bs 向量)。对于每个批处理,我想计算第一个向量与其余 (m-1) 个向量的 Jaccard 相似度 例子: a = [ [
如何使用 Whoosh 获取文档的相似性度量? 我想创建一个“相关”特征,对与文档具有高度相似性的其他先前编入索引的文档进行排名。 我是否将文档作为长查询字符串输入?我是否将文档添加到索引并以某种方式
我编写了一个 Python 函数,它接受两个列表,使用 Levenshtein 比较它们并将足够相似的单词合并到一个名为“merged”的列表中。 我如何为超过 6 个列表执行此操作?确保将每个列表与
请原谅我对 Go 的了解非常有限。我有这样的定义 type ErrorVal int const ( LEV_ERROR ErrorVal = iota LEV_WARNING
我正在从事文本分析项目,一次比较两个不同的报告并将结果保存到 pandas 数据框中。 我能够得到 cosine 和 jacard 的相似性,但需要确保我得到正确的度量。作为参数,我使用位于给定文件夹
我是一名优秀的程序员,十分优秀!