gpt4 book ai didi

java - Java 中的分词器、停用词删除、词干提取

转载 作者:IT老高 更新时间:2023-10-28 20:54:11 26 4
gpt4 key购买 nike

我正在寻找一个类或方法,它需要包含 100 多个单词的长字符串并进行标记、删除停用词和词干以用于 IR 系统。

例如:

"The big fat cat, said 'your funniest guy i know' to the kangaroo..."

tokenizer 会删除标点符号并返回一个 ArrayList 单词

停用词删除器会删除“the”、“to”等词

词干分析器会减少每个单词的“词根”,例如“最有趣”会变得有趣

非常感谢。

最佳答案

AFAIK Lucene可以做你想做的事。使用 StandardAnalyzerStopAnalyzer 您可以去除停用词。结合 Lucene contrib-snowball(包括来自 Snowball 的工作)项目,您也可以进行词干提取。

但对于词干,还请考虑以下答案:Stemming algorithm that produces real words

关于java - Java 中的分词器、停用词删除、词干提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1664489/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com