gpt4 book ai didi

hadoop - Mahout 中的逻辑回归\SVM 实现

转载 作者:可可西里 更新时间:2023-11-01 14:41:27 26 4
gpt4 key购买 nike

我目前正在为一家电信公司的数据进行 Twitter 数据的情感分析。我正在将数据加载到 HDFS 中,并使用 Mahout 的朴素贝叶斯分类器将情感预测为正面、负面或中性。

这是我正在做的

  1. 我正在向机器提供训练数据(key :sentiment,value:text)。

  2. 使用 mahout 库通过计算文本的 tf-idf(逆文档频率)创建特征向量。

    mahout seq2sparser -i/user/root/new_model/dataseq --maxDFPercent 1000000 --minSupport 4 --maxNGramSize 2 -a org.apache.lucene.analysis.WhitespaceAnalyzer -o/user/root/new_model/predicted

  3. 将数据拆分为训练集和测试集。

  4. 我传递给朴素贝叶斯算法以构建模型的特征向量。

mahout trainnb -i/user/root/new_model/train-vectors -el -li/user/root/new_model/labelindex -o/user/root/new_model/model -ow -c

  1. 我正在使用此模型预测新数据的情绪。

这是我正在做的非常简单的实现,即使我有很好的训练集,通过这个实现我的准确性也很低。所以我正在考虑切换到 Logistic 回归/SVM,因为它们可以为这类问题提供更好的结果。

所以我的问题是如何使用这些算法来构建我的模型或使用这两种算法预测推文的情绪。我需要遵循哪些步骤才能实现这一目标?

最佳答案

尝试使用 CrossFoldLearner,但我怀疑它是否采用朴素贝叶斯作为学习模型,我之前使用过 OnlineLogisticRegression。或者希望您可以编写自己的 crossFoldLearner 并将朴素贝叶斯作为学习器。我也不认为改变算法会大大改善结果。这意味着您必须仔细查看分析器以进行标记化。也许考虑二元标记化,而不是只使用一元标记。您是否考虑过语音学,因为大多数 Twitter 单词都不是来自字典。

关于hadoop - Mahout 中的逻辑回归\SVM 实现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21406736/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com