gpt4 book ai didi

tokenize - 如何使用斯坦福 NLP 在标记化期间避免标点符号

转载 作者:行者123 更新时间:2023-12-01 05:05:40 34 4
gpt4 key购买 nike

我正在使用标准核心 NLP。我试过下面的例子。这个例子可以标记文本中的单词。然而,它也提取标点符号,如逗号、句号等。我想知道如何设置不允许提取标点符号的属性,或者有没有其他方法可以做到这一点。这是代码示例。我知道使用 Python 很容易,但不知道如何在 Java 中做到这一点。请建议。

    props = new Properties();
props.setProperty("annotators", "tokenize, ssplit");
pipeline = new StanfordCoreNLP(props);
String text = "this is simple text written in English,Spanish etc."

// create an empty Annotation just with the given text
Annotation document = new Annotation(text);

pipeline.annotate(document);

List<CoreMap> sentences = document.get(SentencesAnnotation.class);

for(CoreMap sentence: sentences) {
for (CoreLabel token: sentence.get(TokensAnnotation.class)) {
// this is the text of the token
String word = token.get(TextAnnotation.class);
}
}

最佳答案

我们没有任何标记器选项可以跳过这些,但这应该不难。标点字符串是一个封闭的类。

您可以使用正则表达式匹配标点符号。 (使用 \p{Punct} ;参见例如 Punctuation Regex in Java )。然后只需删除其文本内容与此类正则表达式匹配的标记。

关于tokenize - 如何使用斯坦福 NLP 在标记化期间避免标点符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29061358/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com