gpt4 book ai didi

python - 基于标签的重叠聚类(软聚类)

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:51:37 25 4
gpt4 key购买 nike

我正在寻找一种算法,根据主题标签对 Twitter 提要进行聚类,其中主题标签不会严格分配给一个集群。

非常简单的例子:

  • 饲料 1:#food #vegetable
  • 饲料 2:#food #vegetable
  • 饲料 3:#food #fruit
  • 饲料 4:#food #fruit

我想得到的结果是:

  • 第 1 组:#food #vegetable
  • 第 2 组:#food #fruit

当然,实际上我可以拥有数十万个提要和数千个可能的主题标签。

我在 scikit-learn 中尝试使用相似矩阵的各种方法(k-均值、谱聚类、凝聚聚类),例如:

               #food | #vegetable | #fruit |
#food 1 | 1/2 | 1/2 |
#vegetable 1/2 | 1 | 0 |
#fruit 1/2 | 0 | 1 |

所有这些算法都有效,但它们会创建不相交的集群(每个主题标签只属于一个集群)。

最佳答案

  • 您可以将您的主题标签视为一种描述,并在其上运行 LDA 算法。它将创建包含多个主题标签的主题,并且每个主题标签都可以在多个主题中找到。
  • 您可以根据主题标签创建加权图。您所有的主题标签都是该图的节点,当主题标 checkout 现在同一提要中时,边缘会增加。从此图中,您可以使用允许社区重叠的多个社区检测算法(例如 k-click)

关于python - 基于标签的重叠聚类(软聚类),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58181300/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com