gpt4 book ai didi

java - CoreNLP做ssplit后如何获取句子原文?

转载 作者:行者123 更新时间:2023-11-30 06:58:40 26 4
gpt4 key购买 nike

CoreNLP 的标记化改变了句子文本。将由空格分隔的标记拼接在一起并不是真正的重建。如果句子中包含圆括号和其他标点符号,事情就会变得复杂。请参阅下面的代码块。

Properties props = new Properties();
props.setProperty("annotators", "tokenize, ssplit");
pipeline = new StanfordCoreNLP(props);

Annotation document = new Annotation(paragraph);
pipeline.annotate(document);

List<CoreMap>sentences = document.get(SentencesAnnotation.class);

List<String> sentenceList = new ArrayList<>();
for (CoreMap sentence : sentences)
{
//How to get the original text of sentence?
}

最佳答案

回答我自己的问题。这很容易。在问题代码块中插入以下行代替注释。

String sentenceString = Sentence.listToOriginalTextString(sentence.get(TokensAnnotation.class));

关于java - CoreNLP做ssplit后如何获取句子原文?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32465099/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com