gpt4 book ai didi

nlp - 如何确定文本聚类LDA(Latent Dirichlet Allocation)算法中主题的数量?

转载 作者:行者123 更新时间:2023-12-02 13:57:52 26 4
gpt4 key购买 nike

我正在使用 LDA 算法将许多文档聚类到不同的主题中。 LDA算法需要一个输入参数:主题数量。我如何确定这一点?

我正在使用路透社语料库来对我的解决方案进行基准测试。路透社语料库已准备好主题编号。对路透文本进行聚类时,是否应该输入相同的主题编号?并将我的聚类结果与路透的聚类结果进行比较?

但是在生产中,在实际根据主题进行聚类之前,我如何知道主题的数量。这有点像先有鸡还是先有蛋的问题。

最佳答案

解决此问题的一种方法是通过 k 方法。通过轮廓(或肘部曲线,但我猜这将需要手动干预),您可以获得最佳的簇数。您可以使用此数字作为主题数。

关于nlp - 如何确定文本聚类LDA(Latent Dirichlet Allocation)算法中主题的数量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21109823/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com