- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一组 5000 万个文本片段,我想从中创建一些集群。维度可能介于 60k-100k 之间。平均文本片段长度为 16 个单词。可以想象,频率矩阵会非常稀疏。我正在寻找可以让我找到这些集群的软件包/libray/sdk。我过去曾尝试过 CLUTO,但这对 CLUTO 来说似乎是一项非常繁重的任务。从我的在线研究中,我发现 BIRCH 是一种可以处理此类问题的算法,但不幸的是,我无法在网上找到任何 BIRCH 实现软件(我只找到了一些临时实现,如分配项目,缺少任何任何类型的文档)。有什么建议吗?
最佳答案
您可能有兴趣查看使用 TopSig 表示的 Streaming EM-tree 算法。两者都是我的博士学位。关于大规模文档聚类的论文。
我们最近在一台 16 核机器 (http://ktree.sf.net) 上聚集了 7.33 亿份文档。索引文档大约需要 2.5 天,聚类文档需要 15 小时。
可以在 https://github.com/cmdevries/LMW-tree 找到 Streaming EM-tree 算法。 .它适用于 TopSig 生成的二进制文档向量,可以在 http://topsig.googlecode.com 找到。 .
我之前在 http://chris.de-vries.id.au/2013/07/large-scale-document-clustering.html 上写了一篇关于类似方法的博文.然而,EM 树可以更好地扩展并行执行,并且还可以生成质量更好的集群。
如果您有任何问题,请随时通过 chris@de-vries.id.au 与我联系。
关于dataset - 百万级高维数据聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7423747/
我是一名优秀的程序员,十分优秀!