gpt4 book ai didi

hadoop - Mahout支持词干吗?

转载 作者:行者123 更新时间:2023-12-02 21:39:00 25 4
gpt4 key购买 nike

我正在使用mahout使用LDA进行主题发现。为了准备我的数据,我使用了seq2sparse,它将文档标记化并创建n元语法。但是,默认情况下它不支持词干。我想知道Mahout有没有内置词干?如果没有,我应该自己执行吗?有什么建议吗?

最佳答案

您可以使用seq2sparse命令完善分析仪:

$MAHOUT_HOME/bin/mahout seq2sparse
...
--analyzerName (-a) analyzerName The class name of the analyzer

该分析器是Apache Lucene分析器,因此每个示例都必须按如下所示精确命名:
org.apache.lucene.analysis.fr.FrenchAnalyzer

我建议您阅读 official documentation以获得有关 seqsparse命令可以做什么的更多信息。您还需要阅读一些Lucene documentation

PS:您应该使用与mahout中相同的lucene版本。

关于hadoop - Mahout支持词干吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30082812/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com