gpt4 book ai didi

java - Java 中的意大利语词干提取库

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:45:21 25 4
gpt4 key购买 nike

我正在搜索 Java 库或其他东西来提取意大利语单词字符串。

目标是比较意大利语单词。在这一刻,像“attacco”、“attacchi”、“attaccare”等词被认为是不同的,相反我想返回一个真实的比较。

我找到了类似 Lucene、snowball.tartarus.org 等的东西。还有其他有用的东西吗?或者我如何在 Java 中使用它们?

感谢您的回答。

最佳答案

下载Snowball对于 Java here .

它包含一个名为 org.tartarus.snowball.ext.italianStemmer 的类,它扩展了 SnowballStemmer

要使用 SnowballStemmer,请查看以下动词 attaccare 现在时的测试代码:

import org.junit.Test;
import org.tartarus.snowball.SnowballStemmer;
import org.tartarus.snowball.ext.italianStemmer;

public class SnowballItalianStemmerTest {

@Test
public void testSnowballItalianStemmerAttaccare() {

SnowballStemmer stemmer = (SnowballStemmer) new italianStemmer();

String[] tokens = "attacco attacchi attacca attacchiamo attaccate attaccano".split(" ");
for (String string : tokens) {
stemmer.setCurrent(string);
stemmer.stem();
String stemmed = stemmer.getCurrent();
Assert.assertEquals("attacc", stemmed);
System.out.println(stemmed);
}

}

}

输出:

attacc
attacc
attacc
attacc
attacc
attacc

有关另一个使用示例,请参阅同一 tgz 文件中包含的 TestApp.java

用 Java 编写的 Lucene 使用 Snowball 进行词干提取,例如 SnowballFilter 中的过滤器.

关于java - Java 中的意大利语词干提取库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13381069/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com