gpt4 book ai didi

java - 使用 Stanford NLP : Filter unrequired words and characters 进行文本标记化

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:55:15 26 4
gpt4 key购买 nike

我使用 Stanford NLP 在我的分类工具中进行字符串标记化。我只想得到有意义的词,但我得到的是非词标记(如 --->. 等)而不是重要的词,如 amisto(停用词)。有人知道解决这个问题的方法吗?

最佳答案

在 stanford Corenlp 中,有一个 stopword removal annotator它提供了删除标准停用词的功能。您还可以根据需要在此处定义自定义停用词(即 ---、<、. 等)

可以看例子here :

   Properties props = new Properties();
props.put("annotators", "tokenize, ssplit, stopword");
props.setProperty("customAnnotatorClass.stopword", "intoxicant.analytics.coreNlp.StopwordAnnotator");

StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
Annotation document = new Annotation(example);
pipeline.annotate(document);
List<CoreLabel> tokens = document.get(CoreAnnotations.TokensAnnotation.class);

这里在上面的例子中“tokenize,ssplit,stopwords”设置为自定义停用词。

希望对您有所帮助....!

关于java - 使用 Stanford NLP : Filter unrequired words and characters 进行文本标记化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30019054/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com