- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
给定训练语料库 docsWithFeatures
,我在 Spark 中训练了一个 LDA 模型(通过 Scala API),如下所示:
import org.apache.spark.mllib.clustering.{LDA, DistributedLDAModel, LocalLDAModel}
val n_topics = 10;
val lda = new LDA().setK(n_topics).setMaxIterations(20)
val ldaModel = lda.run(docsWithFeatures)
val distLDAModel = ldaModel.asInstanceOf[DistributedLDAModel]
现在我想报告模型的对数似然和困惑度。
我可以这样得到对数似然:
scala> distLDAModel.logLikelihood
res11: Double = -2600097.2875547716
但这就是事情变得奇怪的地方。我还想要 perplexity,它只针对本地模型实现,所以我运行:
val localModel = distLDAModel.toLocal
这让我得到了这样的(日志)困惑:
scala> localModel.logPerplexity(docsWithFeatures)
res14: Double = 0.36729132682898674
但是本地模型也支持对数似然计算,我是这样运行的:
scala> localModel.logLikelihood(docsWithFeatures)
res15: Double = -3672913.268234148
那么这里发生了什么?两个对数似然值不应该相同吗?分布式模型的文档说
“logLikelihood:在给定推断主题和文档主题分布的情况下,记录训练语料库的可能性”
对于本地模型,它说:
“logLikelihood(documents):在给定推断主题的情况下计算所提供文档的下限。”
我猜这些是不同的,但我不清楚如何或为什么。我应该使用哪一个?也就是说,在给定训练文档的情况下,哪个是模型的“真实”可能性?
总而言之,有两个主要问题:
1 - 这两个对数似然值有何不同以及为什么不同,我应该使用哪个?
2 - 在报告困惑时,我认为我应该使用 logPerplexity 结果
的指数是否正确? (但为什么模型给出的是对数困惑而不是简单的困惑?我是不是漏掉了什么?)
最佳答案
1) 这两个对数似然值不同,因为它们计算两个不同模型的对数似然。 DistributedLDAModel
正在有效地计算对数似然 w.r.t.一个模型,其中主题的参数和每个文档的混合权重是常量(正如我在另一篇文章中提到的,DistributedLDAModel
本质上是正则化 PLSI,尽管您需要使用 logPrior
也考虑了正则化),而 LocalLDAModel
认为每个文档的主题参数和混合权重都是随机变量。因此,在 LocalLDAModel
的情况下,您必须整合(边缘化)主题参数和文档混合权重,以便计算对数似然(这就是变分近似/下限必要的原因,尽管即使没有近似值,对数似然也不相同,因为模型只是不同。)
至于你应该使用哪一个,我的建议(不知道你最终想做什么)是使用附加到你最初训练的类的对数似然法(即 DistributedLDAModel
。)作为旁注,我可以看到通过 toLocal
将 DistributedLDAModel
转换为 LocalLDAModel
的主要(唯一?)原因是为一组新的(训练外的)文档启用主题混合权重的计算(有关更多信息,请参阅我在该线程上的帖子:Spark MLlib LDA, how to infer the topics distribution of a new unseen document?),该操作不是(但可能是) DistributedLDAModel
支持。
2) log-perplexity 只是负对数似然除以语料库中的标记数。如果将 log-perplexity 除以 math.log(2.0)
,则结果值也可以解释为编码语料库(作为词袋)所需的每个标记的近似位数给定模型。
关于scala - 报告 spark LDA 模型的对数似然/困惑度(本地模型与分布式模型不同?),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33725122/
@After public void afterScenario() { if (ScenarioManager.getScenario().isFailed()) {
我已将 BIRT 报告集成到 Grails 中并设计了一份报告。我的 grails 应用程序中有一个名为 startPeriod (仅限月份和年份)的参数,我想将其传递给 BIRT。然后 BIRT 调
我有一些 Oracle 报告 (.rdf),正在考虑将其转换为 BIRT 报告。有没有办法将 .rdf 文件转换为 BIRT 报告设计文件? 最佳答案 完全自动化的解决方案可能是不可能的。您可以部分自
当 gcc 4.1(使用 gcov)下一行: p = 新类; 报告为 100% 分支覆盖率 为什么? 因为启用了异常处理!!! 为了解决此问题,请指定: -fno-exceptions 在 g++
真的有好 免费 BugZilla 报告工具?我发现 Web 界面上的默认搜索选项太有限了。我最大的问题是缺少 Order By 选项(一次只有 1 个字段,可供选择的字段集非常有限)。我已经做了一些谷
是否可以在 CFMX7 上运行 ColdFusion Report builder 生成的报告? 更明确地说,是否可以将 CF7 中的报告生成引擎更改为 CF8? 最佳答案 我猜这可能很难做到。我记得
根据Lucintel发布的新市场报告,智能家居市场的未来看起来很有吸引力,在家用安全、家电、娱乐、照明、HVAC、医疗保健和厨房应用中将带来许多机遇。 由于COVID-19导致的全球经济衰退,
PHPCodeSniffer 是否生成 HTML 报告? 如果不是呢?怎么办? 目前,我可以运行 PHPCodeSniffer,但它只生成 XML 文件并在终端中显示结果。 如何在 phpunit 中
我在一个包中添加了一个简单的测试。 按照手册中的建议,我尝试让 PHPUnit 加载配置: phpunit -c /app phpunit.xml 看起来像这样:
我有两个从 csv 文件加载的数据框。基本上来自不同的环境但格式/列相似,它们的行/值可能有所不同。我想找到差异并在新的数据框中创建它们。两个数据框也将具有相同的顺序。我有 100 个要比较的文件。提
我想看看是否有办法通过 javadoc 在我的 junit 报告中包含“描述性文本”。 JUnit 4 似乎不像 TestNG 那样支持 @Test 注释的“描述”属性。 到目前为止,我所研究的只有一
我正在使用操作、 Controller 、servlet struts 框架编写 Excel 报告。该报告非常拥挤,已经有大约 10 个单独的查询。由于报告发生变化,我需要再添加大约 10 个查询。有
在放弃 Syleam 的 openerp jasper 模块后,我在 Nan Tic 的 jasper_reports 模块上苦苦挣扎。 它一直给我一个错误: File "C:\Program Fil
我希望创建一个简单的日历。每天由编码器生成条目计数并以日历样式查看。如一月、二月等。或按月显示全年。 database have date_added and encoder columns 我在将它
我必须为报告创建 MySQL 查询。 我有一个表history,它记录产品订单的状态更改。我有订单生命周期(订单流程)的以下状态:新、已确认、正在处理、已发货、已交付、已取消、已退回。订单不一定遵循此
如何将多个查询合并为一个? 例如: //Successful Sales: SELECT username, count(*) as TotalSales, sum(point) as Points
MySQL 优化技术的新手。请找到下面的 mysqltuner.pl 报告,并建议我应该更改 my.cnf 中的哪些变量以优化性能。 还有一个问题- 我无法在我的 my.cnf 中找到一些变量,例如
我想知道,我想将我的 Swing Worker 的某种形式的进度报告回主线程,以便我的界面可以使用随着进度增加而变化的标签进行更新,例如 checking 1/6... checking 2/6...
我正在尝试在“报告”>“销售”下运行 Magento Paypal 结算报告,但每次我尝试运行该报告时,我都会收到消息“由于配置为空,无法获取任何内容” 我查看了“系统”>“配置”>“销售”>“付款方
我想要一个工具来帮助创建 sql 查询(对于非 IT 人员),例如 dbforge。 我希望我们的非 IT 人员(例如运营)创建他们自己的 sql 查询。 我的第二个目标是让他们能够按需执行这些查询。
我是一名优秀的程序员,十分优秀!