gpt4 book ai didi

python - 使用 PyLucene 作为 K-NN 分类器

转载 作者:行者123 更新时间:2023-11-30 09:58:00 25 4
gpt4 key购买 nike

我有一个由数百万个示例组成的数据集,其中每个示例包含 128 个按名称分类的连续值特征。我正在尝试找到一个强大的大型数据库/索引来用作高维数据的 KNN 分类器。我试过Weka's IBk classifier ,但它会因为这么多数据而窒息,即使如此,也必须将其加载到内存中。会Lucene ,特别是通过 PyLucene 接口(interface),是一个可能的替代方案吗?

我找到了Lire ,它似乎以类似的方式使用 Lucene,但在查看代码后,我不确定他们是如何实现的,或者这是否与我正在尝试做的事情相同。

我意识到 Lucene 被设计为文本索引工具,而不是通用分类器,但是可以以这种方式使用它吗?

最佳答案

根据您告诉我们的情况,Lucene 似乎不是正确的选择。 Lucene 将为您提供一种存储数据的方法,但在检索方面,它除了搜索文本字符串之外没有其他任何用途。

由于 K-NN 非常简单,因此您最好在典型的 RDBMS 或 Berkeley DB 之类的东西中创建自己的数据存储。您可以根据各个维度的子超立方体创建键/索引以加快速度 - 从要分类的项目的存储桶开始并向外移动...

关于python - 使用 PyLucene 作为 K-NN 分类器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5571339/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com