gpt4 book ai didi

java - 斯坦福核心 NLP : Entity type non deterministic

转载 作者:搜寻专家 更新时间:2023-11-01 02:41:43 24 4
gpt4 key购买 nike

我使用 Stanford Core NLP 构建了一个 Java 解析器。我发现在使用 CORENLP 对象获得一致结果时存在问题。我正在为相同的输入文本获取不同的实体类型。对我来说,这似乎是 CoreNLP 中的一个错误。想知道是否有任何 StanfordNLP 用户遇到过这个问题并找到了解决方法。这是我正在实例化和重用的服务类。

    class StanfordNLPService {
//private static final Logger logger = LogConfiguration.getInstance().getLogger(StanfordNLPServer.class.getName());
private StanfordCoreNLP nerPipeline;
/*
Initialize the nlp instances for ner and sentiments.
*/
public void init() {
Properties nerAnnotators = new Properties();
nerAnnotators.put("annotators", "tokenize,ssplit,pos,lemma,ner");
nerPipeline = new StanfordCoreNLP(nerAnnotators);


}

/**
* @param text Text from entities to be extracted.

*/
public void printEntities(String text) {

// boolean tracking = PerformanceMonitor.start("StanfordNLPServer.getEntities");
try {

// Properties nerAnnotators = new Properties();
// nerAnnotators.put("annotators", "tokenize,ssplit,pos,lemma,ner");
// nerPipeline = new StanfordCoreNLP(nerAnnotators);
Annotation document = nerPipeline.process(text);
// a CoreMap is essentially a Map that uses class objects as keys and has values with custom types
List<CoreMap> sentences = document.get(CoreAnnotations.SentencesAnnotation.class);

for (CoreMap sentence : sentences) {
for (CoreLabel token : sentence.get(CoreAnnotations.TokensAnnotation.class)) {
// Get the entity type and offset information needed.
String currEntityType = token.get(CoreAnnotations.NamedEntityTagAnnotation.class); // Ner type
int currStart = token.get(CoreAnnotations.CharacterOffsetBeginAnnotation.class); // token offset_start
int currEnd = token.get(CoreAnnotations.CharacterOffsetEndAnnotation.class); // token offset_end.
String currPos = token.get(CoreAnnotations.PartOfSpeechAnnotation.class); // POS type
System.out.println("(Type:value:offset)\t" + currEntityType + ":\t"+ text.substring(currStart,currEnd)+"\t" + currStart);
}
}
}catch(Exception e){
e.printStackTrace();

}
}

}
Discrepancy result: type changed from MISC to O from the initial use.
Iteration 1:
(Type:value:offset) MISC: Appropriate 100
(Type:value:offset) MISC: Time 112
Iteration 2:
(Type:value:offset) O: Appropriate 100
(Type:value:offset) O: Time 112

最佳答案

这是 NER FAQ 的答案:

http://nlp.stanford.edu/software/crf-faq.shtml

NER 是确定性的吗?为什么相同数据的结果会发生变化?

是的,基础 CRF 是确定性的。但是,如果你多次将 NER 应用于同一个句子,第二次可能会得到不同的答案。这样做的原因是 NER 记得它之前是否见过小写形式的单词。

将其用作特征的确切方式是在词形特征中,如果它之前已经或没有将“brown”视为小写词,它会区别对待诸如“Brown”之类的词。如果有,字形就是“初始大写,见过全小写”,如果没有,字形就是“初始大写,没见过全小写”。

在最新版本中可以使用标志 -useKnownLCWords false 关闭此功能

关于java - 斯坦福核心 NLP : Entity type non deterministic,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31679761/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com