gpt4 book ai didi

dataset - 百万级高维数据聚类

转载 作者:行者123 更新时间:2023-12-01 12:59:29 25 4
gpt4 key购买 nike

我有一组 5000 万个文本片段,我想从中创建一些集群。维度可能介于 60k-100k 之间。平均文本片段长度为 16 个单词。可以想象,频率矩阵会非常稀疏。我正在寻找可以让我找到这些集群的软件包/libray/sdk。我过去曾尝试过 CLUTO,但这对 CLUTO 来说似乎是一项非常繁重的任务。从我的在线研究中,我发现 BIRCH 是一种可以处理此类问题的算法,但不幸的是,我无法在网上找到任何 BIRCH 实现软件(我只找到了一些临时实现,如分配项目,缺少任何任何类型的文档)。有什么建议吗?

最佳答案

您可能有兴趣查看使用 TopSig 表示的 Streaming EM-tree 算法。两者都是我的博士学位。关于大规模文档聚类的论文。

我们最近在一台 16 核机器 (http://ktree.sf.net) 上聚集了 7.33 亿份文档。索引文档大约需要 2.5 天,聚类文档需要 15 小时。

可以在 https://github.com/cmdevries/LMW-tree 找到 Streaming EM-tree 算法。 .它适用于 TopSig 生成的二进制文档向量,可以在 http://topsig.googlecode.com 找到。 .

我之前在 http://chris.de-vries.id.au/2013/07/large-scale-document-clustering.html 上写了一篇关于类似方法的博文.然而,EM 树可以更好地扩展并行执行,并且还可以生成质量更好的集群。

如果您有任何问题,请随时通过 chris@de-vries.id.au 与我联系。

关于dataset - 百万级高维数据聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7423747/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com