gpt4 book ai didi

r - Solr 索引中的聚类文档(具有自定义距离)

转载 作者:行者123 更新时间:2023-11-30 09:57:13 25 4
gpt4 key购买 nike

我想使用 k-means 聚类(机器学习)对 solr lucene 中的文档进行聚类。文档通常有很多字段,有些是文本字段,有些是用于计算地理空间距离的位置(纬度和经度)。 Solr 提供了一种根据索引中的特定字段(包括地理空间字段(使用 solr 查询表示))查找两个文档之间的分数(距离)的方法。有没有办法利用这个“自定义距离”来执行 k 均值算法?

只是想详细说明一下“自定义距离”,通常为“维度 1”给出 X 值,并且在另一个文档中对于相同的“维度 1”也有类似的数值,我们找到了欧几里德距离。

但是,在这个 solr 用例中,文档之间的距离是通过使用给定文档集的 solr 相关性分数来动态获取的。这相当于自定义距离。有什么工具或方法可以提供帮助吗?

我可以使用 R 或 mahout 或 Octave 来执行此操作吗?

我知道我们可以从 solr 导出术语向量并使用 mahout 进行相同的操作,但这似乎需要导出并执行 solr 在 mahout 中再次执行的相同操作来评分。同样,使用 solr 查询获得距离的地理空间和优雅性也丢失了。

编辑:solr carrot2 似乎没有削减,因为它针对搜索结果进行了更优化(<1K​​ 结果)

最佳答案

您可以使用任何库或自行实现的 k-means 根据给定的相似分数进行聚类。

关于r - Solr 索引中的聚类文档(具有自定义距离),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20974818/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com