gpt4 book ai didi

LDA 主题建模 - 训练和测试

转载 作者:行者123 更新时间:2023-12-02 01:14:14 26 4
gpt4 key购买 nike

我读过 LDA,并且了解当一个人输入一组文档时如何生成主题的数学原理。

引用文献称,LDA 是一种算法,只要给定一个文档集合(无需任何监督),就可以揭示该集合中的文档所表达的“主题”。因此,通过使用 LDA 算法和吉布斯采样器(或变分贝叶斯),我可以输入一组文档,并作为输出获得主题。每个主题都是一组具有指定概率的术语。

我不明白的是,如果上述是正确的,那么为什么许多主题建模教程都谈到将数据集分为训练集和测试集?

任何人都可以向我解释如何使用 LDA 来训练模型,然后使用该模型来分析另一个测试数据集的步骤(基本概念)吗?

最佳答案

将数据分为训练集和测试集是评估学习算法性能的常见步骤。对于监督学习来说更清晰,您在训练集上训练模型,然后查看其在测试集上的分类与真实类别标签的匹配程度。对于无监督学习,这种评估有点棘手。在主题建模的情况下,常见的性能衡量标准是 perplexity 。您在训练集上训练模型(如 LDA),然后您会看到模型在测试集上有多么“困惑”。更具体地说,您可以衡量主题所代表的单词分布所代表的测试文档的字数。

Perplexity 对于模型或参数设置之间的相对比较很有用,但它的数值并没有多大意义。我更喜欢使用以下有点手动的评估过程来评估主题模型:

  1. 检查主题:查看每个主题中可能性最高的单词。它们听起来像是形成一个有凝聚力的“主题”还是只是一些随机的单词组?
  2. 检查主题分配:拿出一些训练中的随机文档,看看 LDA 为它们分配了哪些主题。手动检查文档和指定主题中的热门单词。这些主题看起来是否真正描述了文档实际讨论的内容?

我意识到这个过程并不像人们想象的那么美好和定量,但说实话,主题模型的应用也很少是定量的。我建议根据您要应用主题模型的问题来评估您的主题模型。

祝你好运!

关于LDA 主题建模 - 训练和测试,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11162402/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com