作者热门文章
- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我用 Lucene 对一组文档进行了分类(字段:内容、类别)。每个文档都有自己的类别,但其中一些文档被标记为未分类。 java中有什么方法可以方便的对这些文档进行分类吗?
最佳答案
分类是机器学习/统计领域的一个广泛问题。阅读您的问题后,我觉得您使用了某种 SQL group by 子句(尽管在 Lucene 中)。如果您希望机器对文档进行分类,那么您需要了解神经网络、贝叶斯、SVM 等机器学习算法。Java 中有优秀的库可用于这些任务。为此,您将需要可以训练算法的特征(从数据中提取的一组属性),以便它可以预测您的分类标签。
Java 中有一些很好的 API(这使您可以专注于代码,而不必过多地了解这些算法背后的数学理论,但如果您知道这将非常有利)。维卡不错我还看到了 Manning 的几本书,它们很好地处理了这些任务。给你:
行动中的集体智慧第 10 章(分类):http://www.manning.com/alag/
智能网算法第五章(分类):http://www.manning.com/marmanis/
这些绝对是关于分类的绝妙 Material (对于 Java 用户),特别适合那些不想深入研究理论(尽管非常重要 :))并且只想快速获得工作代码的人。
Collective Intelligence in Action 使用 JDM 和 Weka 解决了分类问题。因此,请查看这两个用于您的任务。
关于java - 如何对用lucene索引的文档进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9460593/
我是一名优秀的程序员,十分优秀!