- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
老实说,我对 LDA 并不熟悉,但我的一个项目需要使用 MALLET 的主题建模。
我的问题是:给定特定时间戳内的一组文档作为主题模型的训练数据,使用模型(使用推理器)来跟踪主题趋势是否合适,对于文档+或-训练数据的时间戳。我的意思是,如果在模型构建阶段,我们只提供需要分析的数据集的子集,那么 MALLET 提供的主题分布是否是一个合适的指标来跟踪主题随时间的流行程度。
谢谢。
最佳答案
你熟悉Latent Semantic Indexing吗? ?潜在狄利克雷分析只是做同一件事的不同方式,所以 LSI 或 pLSI您可能是了解 LDA 目标的更简单的起点。
所有三种技术都以无监督的方式锁定主题(您告诉它要查找多少个主题),然后假设每个文档以不同的比例涵盖每个主题。根据您分配的主题数量,它们的行为可能更像是您的语料库的子字段,并且可能不像人们在考虑热门主题时所想到的“主题”那么具体。新闻。
不知何故,我怀疑您想假设每个文档代表一个特定主题。 LSI/pLSI/LDA 不这样做——它们将每个文档建模为主题的混合。这并不意味着你不会得到好的结果,或者这不值得尝试,但我怀疑(尽管我对 LSI 文献没有全面的了解)你将解决一个全新的研究问题.
(FWIW,我怀疑使用像 k-Means 这样的聚类方法更容易模拟每个文档只有一个主题的假设。)
关于nlp - 关于潜在狄利克雷分配(MALLET)的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4143660/
COUNT 查询找出 total_count 有时很慢。但是,如果我在模型中缓存 items_amount 或此类字段的值,我想将其用于 kaminari 分页。 例子:我有模型 Category (
我们使用 Kaminari 对记录进行分页。我们破解了 total_count 方法,因为在 2m + 记录后给出总计数非常慢。 def total_count @_hacked_total_co
我是一名优秀的程序员,十分优秀!