java - 使用 ICUTokenizer JAVA 标记泰语句子-6ren

java - 使用 ICUTokenizer JAVA 标记泰语句子

转载作者：行者123 更新时间：2023-11-29 04:32:13

25

4

我正在尝试使用以下代码从泰语句子中获取所有标记。它抛出异常。谁能指点我在 JAVA 中标记泰语？

    import org.apache.lucene.analysis.Analyzer.TokenStreamComponents;
import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.icu.ICUNormalizer2Filter;
import org.apache.lucene.analysis.icu.segmentation.ICUTokenizer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

public class Tokenizer{

    public static void main(String[] args) throws IOException {
        ICUTokenizer tokenizer = new ICUTokenizer(new StringReader("การที่ได้ต้องแสดงว่างานดี"));
        TokenFilter filter = new ICUNormalizer2Filter(tokenizer);
        TokenStreamComponents tt = new TokenStreamComponents(tokenizer, filter);
        TokenStream ts = tt.getTokenStream();
        CharTermAttribute cattr  = ts.addAttribute(CharTermAttribute.class);
        ts.reset();
        while(ts.incrementToken()){
            System.out.println(cattr.toString()+"-----");
        }
    }
}

异常情况如下

Exception in thread "main" java.lang.ExceptionInInitializerError
    at org.apache.lucene.analysis.icu.segmentation.ICUTokenizer.<init>(ICUTokenizer.java:72)
    at com.tokenizer.tt.main(tt.java:22)
Caused by: java.lang.RuntimeException: java.io.IOException: ICU data file error: Not an ICU data file
    at org.apache.lucene.analysis.icu.segmentation.DefaultICUTokenizerConfig.readBreakIterator(DefaultICUTokenizerConfig.java:128)
    at org.apache.lucene.analysis.icu.segmentation.DefaultICUTokenizerConfig.<clinit>(DefaultICUTokenizerConfig.java:66)
    ... 2 more
Caused by: java.io.IOException: ICU data file error: Not an ICU data file
    at com.ibm.icu.impl.ICUBinary.readHeader(ICUBinary.java:577)
    at com.ibm.icu.text.RBBIDataWrapper.get(RBBIDataWrapper.java:173)
    at com.ibm.icu.text.RuleBasedBreakIterator.getInstanceFromCompiledRules(RuleBasedBreakIterator.java:71)
    at org.apache.lucene.analysis.icu.segmentation.DefaultICUTokenizerConfig.readBreakIterator(DefaultICUTokenizerConfig.java:123)
    ... 3 more

最佳答案

终于想通了如何在java程序中使用ICU4J

import java.io.IOException;
import java.io.Reader;
import java.io.StringReader;
import org.apache.lucene.analysis.icu.segmentation.ICUTokenizer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

public class icuEstes {

public static void main(String[] args) throws IOException {
    Reader reader = new StringReader("การที่ได้ต้องแสดงว่างานดี  This is a test ກວ່າດອກ");
    ICUTokenizer icut = new ICUTokenizer();
    icut.setReader(reader);
    icut.addAttribute(CharTermAttribute.class);
    icut.reset();
    while (icut.incrementToken()) {
        System.out.println(icut.toString());
        System.out.println(icut.getAttribute(CharTermAttribute.class));
    }
    icut.close();
}}

关于java - 使用 ICUTokenizer JAVA 标记泰语句子，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43377330/

25

4

0

文章推荐： java - 在java中重复字母(乘法)

文章推荐： android - iOS 是否有相当于 Android 音轨的版本？

文章推荐： ios - MVC 中的智能行为(不是计算数据)？ iOS

文章推荐： Java: byte[] 移位操作变成 short

javascript - 泰语 JSON 解码无法正常工作
我有一个 PHP 数组，其中包含泰语值。当我使用 json_encode 在 javascript 中传递值时，仅 json_decode 不给出输出，返回空白。 print_r ($myarray)
javascript - 使用 javascript(泰语)将此 unicode 转换为字符串
มอเตอร์ไซค์ 我可以用 JS 把这个 unicode 转成
php - 在 MYSQL 数据库中存储多语言/unicode 字符(泰语、印地语、菲律宾语)
这个问题在这里已经有了答案: UTF-8 all the way through (13 个答案) 关闭 7 年前。我有一个 MySQL 数据库。我创建了一个具有以下定义的表，它支持多种语言(印地

首页

博学

6Ren·AI

商城

java - 使用 ICUTokenizer JAVA 标记泰语句子