gpt4 book ai didi

apache-spark - 基于 Apache Spark 朴素贝叶斯的文本分类

转载 作者:行者123 更新时间:2023-12-04 23:01:08 25 4
gpt4 key购买 nike

我正在尝试使用 Apache Spark 进行文档分类。

例如我有两种类型的类(C 和 J)

火车数据是:

C, Chinese Beijing Chinese
C, Chinese Chinese Shanghai
C, Chinese Macao
J, Tokyo Japan Chinese

测试数据是:
Chinese Chinese Chinese Tokyo 日本//什么是 J 或 C ?

我如何训练和预测上述数据。我使用 Apache Mahout 进行了朴素贝叶斯文本分类,但没有使用 Apache Spark。

我怎样才能用 Apache Spark 做到这一点?

最佳答案

是的,在 Spark 中似乎还没有任何简单的工具可以做到这一点。但是您可以通过首先创建一个术语词典来手动完成。然后计算每个术语的 IDF,然后使用 TF-IDF 分数将每个文档转换为向量。

http://chimpler.wordpress.com/2014/06/11/classifiying-documents-using-naive-bayes-on-apache-spark-mllib/上有帖子这解释了如何做到这一点(还有一些代码)。

关于apache-spark - 基于 Apache Spark 朴素贝叶斯的文本分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24011418/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com