gpt4 book ai didi

java - Apache UIMA 解析多语言内容

转载 作者:行者123 更新时间:2023-11-29 08:55:20 24 4
gpt4 key购买 nike

我正在尝试解析非英语语言的内容,例如韩语、中文等。UIMA 是否有任何内置支持。我无法在 Apache UIMA 门户中获得太多关于此的信息。我所能想到的就是想出 unicode 正则表达式模式,但由于某种原因,即使是那些似乎也行不通。我的具有 unicode 字符的正则表达式模式没有注释我需要的词。

我正在使用 JDK1.7UIMA 2.4.2。

非常感谢任何帮助或建议。

下面是我正在尝试的一个例子

文本:Numéro de réservation 445566553 Code [此文本位于我正在使用 FileSystemCollectionReader 读取的文件中,我已将编码设置为 UTF-8]

我的正则表达式 (?<=Num\u00E9ro\sde\sr\u00E9servation\s)(.*?)(?=\sCode)

预期输出:445566553

最佳答案

我不确定您遇到的问题是否与 uima 有关,但您发布的正则表达式在使用纯 java 时似乎对我来说没问题。我正在使用 java 1.7.0_45。我稍微修改了您的正则表达式以允许数字周围有多个空格。这是一个 SSCCE,运行时输出为 '445566553'

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexExample {
public static void main(String[] args) {
String test = "Numéro de réservation 445566553 \tCode";
Pattern pattern = Pattern.compile("(?<=Num\\u00E9ro\\sde\\sr\\u00E9servation)\\s+(.*?)\\s+(?=Code)");
Matcher matcher = pattern.matcher(test);
while(matcher.find()) {
System.out.println("'"+matcher.group(1)+"'");
}
}
}

如果这不是您要查找的内容,那么提供包含您想要修复的测试用例的 SSCCE 将会有所帮助。

关于java - Apache UIMA 解析多语言内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20539845/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com