gpt4 book ai didi

machine-learning - 如何在 Twitter 数据上形成 LDA 文档

转载 作者:行者123 更新时间:2023-11-30 09:35:40 35 4
gpt4 key购买 nike

我们需要对直播流中的 Twitter 推文进行主题建模,输入会引发流式传输并将数据存储到 HDFS。批处理作业对收集的数据运行。批处理作业是查找推文中的潜在主题。为此,我们使用潜在狄利克雷分配 (LDA) 算法来找出主题。我们接收的数据为最大字符数为 140 的推文,并作为一行存储在 HDFS 中。

我是 LDA 算法的新手,对此有基本的了解,因为主题模型是基于 n 个文档中的单词共现而得出的

我了解将数据输入 LDA 的两种选项。

选项 1:使用一行推文作为 LDA 的单个文档?

选项 2:对行进行分组并形成文档,将这些文档传递给 LDA?

我想了解每个选项的词汇(单词)到主题的分布是如何影响的。为了更好的主题建模应该考虑哪个选项。

此外,除了这些选项之外,如果需要任何更好的解决方案来对 Twitter 数据进行主题建模,请告诉我。

注意:当我运行这两个选项并显示在词云上时,我可以看到两个选项的主题(3)的单词分布是不同的。

感谢任何帮助。

提前致谢。

最佳答案

在短文档中使用 LDA 有点棘手,因为 LDA 为每个单词分配一个主题,为每个文档分配多个主题。使用短文本意味着很少有单词属于同一主题,尽管大多数推文只包含一个主题,这通常会产生垃圾主题分布。 (这是你的选择1)

我知道有一个 paper和用于短文本主题建模的java工具,但我从未使用过它。这是 github 存储库 link

对于选项 2,我认为可以使用 LDA 并获得连贯的主题,但您需要找到一些用于分组的语义结构,即每个源、日期、关键字、主题标签..

如果您尽快应用任何建议的选项,我将对您获得的结果非常感兴趣。

关于machine-learning - 如何在 Twitter 数据上形成 LDA 文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43447730/

35 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com