gpt4 book ai didi

stanford-nlp - 格式化 Stanford Corenlp 的 NER 输出

转载 作者:行者123 更新时间:2023-12-01 08:13:53 27 4
gpt4 key购买 nike

我正在使用 Stanford CoreNLP 并将其用于 NER。但是当我提取组织名称时,我看到每个词都标有注释。因此,如果实体是“纽约时报”,那么它将被记录为三个不同的实体:“NEW”、“YORK”和“TIMES”。是否有我们可以在 Stanford COreNLP 中设置的属性,以便我们可以获得作为实体的组合输出?

就像在 Stanford NER 中一样,当我们使用命令行实用程序时,我们可以选择输出格式为:inlineXML ?我们能否以某种方式设置一个属性来选择 Stanford CoreNLP 中的输出格式?

最佳答案

如果你只想要斯坦福 NER 找到的每个命名实体的完整字符串,试试这个:

String text = "<INSERT YOUR INPUT TEXT HERE>";
AbstractSequenceClassifier<CoreMap> ner = CRFClassifier.getDefaultClassifier();
List<Triple<String, Integer, Integer>> entities = ner.classifyToCharacterOffsets(text);
for (Triple<String, Integer, Integer> entity : entities)
System.out.println(text.substring(entity.second, entity.third), entity.second));

如果您想知道,实体类由 entity.first 表示.

或者,您可以使用 ner.classifyWithInlineXML(text)得到看起来像 <PERSON>Bill Smith</PERSON> went to <LOCATION>Paris</LOCATION> . 的输出

关于stanford-nlp - 格式化 Stanford Corenlp 的 NER 输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27852400/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com