gpt4 book ai didi

java - lucene standardanalyzer是否删除停用词并具有词干提取功能?

转载 作者:塔克拉玛干 更新时间:2023-11-02 08:23:04 27 4
gpt4 key购买 nike

我已经用 indexWriter 测试了 standardanalyzer,发现它会自动删除停用词,但是,我没有添加停用词列表,因为我使用了以下代码

StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_35); 
IndexWriterConfig config =new IndexWriterConfig(Version.LUCENE_35, analyzer);

默认停用词列表在哪里?另外,这个分析器也会自动词干吗??

最佳答案

根据API docs ,存在一组默认停用词(取自英语),存储在 StandardAnalyzer.STOP_WORDS_SET 中。如果您使用构造函数 public StandardAnalyzer(Version matchVersion) 创建分析器,就会使用它,这正是您所做的。集合与StopAnalyzer.ENGLISH_STOP_WORDS_SET一模一样.您可以使用其他构造函数之一向分析器传递另一组(可能为空)停用词。

StandardAnalyzer 不会阻止单词。如果您需要词干提取,请使用例如 SnowballAnalyzer

关于java - lucene standardanalyzer是否删除停用词并具有词干提取功能?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9755071/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com