gpt4 book ai didi

linguistics - 我应该在nltk中使用哪个词干?

转载 作者:行者123 更新时间:2023-12-03 11:25:05 24 4
gpt4 key购买 nike

我的目标是分析一些语料库(现在为推特)以获取情感内容。就在今天,我意识到搜索单词词干有点有意义,而不是拥有详尽的情感单词词干列表。因此,我一直在探索nltk.stem才意识到有4种不同的词干。我想问一下stackoverflow语言学家,最好是在有合理性的情况下,最好是LancasterStemmer,PorterStemmer,RegexpStemmer,RSLPStemmer或WordNetStemmer。

最佳答案

RSLP用于葡萄牙语。我猜你想要英语。正则表达式将要求您开发自己的词干表达式,因此我认为这也可以忽略。 WordnetStemmer要求您知道该单词的词性,因此必须首先进行pos标记才能使用它。我已经使用了porter stemming算法及其相当不错的功能,但是lancaster算法是较新的,因此可能会更好。您可能想尝试使用词干提取器的组合,从每个词干提取器中选择最短的词干。无论如何,最重要的是PorterStemmer是一个很好的默认选择。

关于linguistics - 我应该在nltk中使用哪个词干?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1264847/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com