gpt4 book ai didi

java - 如何对用lucene索引的文档进行分类

转载 作者:搜寻专家 更新时间:2023-10-31 19:34:44 25 4
gpt4 key购买 nike

我用 Lucene 对一组文档进行了分类(字段:内容、类别)。每个文档都有自己的类别,但其中一些文档被标记为未分类。 java中有什么方法可以方便的对这些文档进行分类吗?

最佳答案

分类是机器学习/统计领域的一个广泛问题。阅读您的问题后,我觉得您使用了某种 SQL group by 子句(尽管在 Lucene 中)。如果您希望机器对文档进行分类,那么您需要了解神经网络、贝叶斯、SVM 等机器学习算法。Java 中有优秀的库可用于这些任务。为此,您将需要可以训练算法的特征(从数据中提取的一组属性),以便它可以预测您的分类标签。

Java 中有一些很好的 API(这使您可以专注于代码,而不必过多地了解这些算法背后的数学理论,但如果您知道这将非常有利)。维卡不错我还看到了 Manning 的几本书,它们很好地处理了这些任务。给你:

行动中的集体智慧第 10 章(分类):http://www.manning.com/alag/

智能网算法第五章(分类):http://www.manning.com/marmanis/

这些绝对是关于分类的绝妙 Material (对于 Java 用户),特别适合那些不想深入研究理论(尽管非常重要 :))并且只想快速获得工作代码的人。

Collective Intelligence in Action 使用 JDM 和 Weka 解决了分类问题。因此,请查看这两个用于您的任务。

关于java - 如何对用lucene索引的文档进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9460593/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com