gpt4 book ai didi

python - 使用 NLTK 删除停用词

转载 作者:IT老高 更新时间:2023-10-28 21:37:15 29 4
gpt4 key购买 nike

我正在尝试通过使用 nltk 工具包删除停用词来处理用户输入的文本,但是通过停用词删除,“and”、“or”、“not”等词会被删除。我希望这些词在停用词删除过程之后出现,因为它们是稍后将文本处理为查询所需的运算符。我不知道在文本查询中哪些词可以作为运算符,我也想从文本中删除不必要的词。

最佳答案

NLTK 中有一个内置的停用词列表,由 11 种语言的 2,400 个停用词组成(Porter 等人),参见 http://nltk.org/book/ch02.html

>>> from nltk import word_tokenize
>>> from nltk.corpus import stopwords
>>> stop = set(stopwords.words('english'))
>>> sentence = "this is a foo bar sentence"
>>> print([i for i in sentence.lower().split() if i not in stop])
['foo', 'bar', 'sentence']
>>> [i for i in word_tokenize(sentence.lower()) if i not in stop]
['foo', 'bar', 'sentence']

我建议查看使用 tf-idf 删除停用词,请参阅 Effects of Stemming on the term frequency?

关于python - 使用 NLTK 删除停用词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19130512/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com