作者热门文章
- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我正在寻找一种算法,根据主题标签对 Twitter 提要进行聚类,其中主题标签不会严格分配给一个集群。
非常简单的例子:
我想得到的结果是:
当然,实际上我可以拥有数十万个提要和数千个可能的主题标签。
我在 scikit-learn 中尝试使用相似矩阵的各种方法(k-均值、谱聚类、凝聚聚类),例如:
#food | #vegetable | #fruit |
#food 1 | 1/2 | 1/2 |
#vegetable 1/2 | 1 | 0 |
#fruit 1/2 | 0 | 1 |
所有这些算法都有效,但它们会创建不相交的集群(每个主题标签只属于一个集群)。
最佳答案
关于python - 基于标签的重叠聚类(软聚类),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58181300/
我是一名优秀的程序员,十分优秀!