gpt4 book ai didi

python - NLTK WordNet Lemmatizer - 如何删除未知单词?

转载 作者:行者123 更新时间:2023-12-01 04:21:37 24 4
gpt4 key购买 nike

我正在尝试在推文上使用 NLTK WordNet Lemmatizer。

我想删除在 WordNet 中找不到的所有单词(twitter 句柄等),但 WordNetLemmatizer.lemmatize() 没有反馈。如果找不到该单词,它只会原封不动地返回该单词。

有没有办法检查 WordNet 中是否找到某个单词?

或者有没有更好的方法从字符串中删除除“正确的英语单词”之外的任何内容?

最佳答案

您可以使用wordnet.synsets(token)进行检查。请务必处理标点符号,然后检查它是否在列表中。这是一个例子:

from nltk.tokenize import WordPunctTokenizer
from nltk.corpus import wordnet

my_list_of_strings = [] # populate list before using

wpt = WordPunctTokenizer()
only_recognized_words = []

for s in my_list_of_strings:
tokens = wpt.tokenize(s)
if tokens: # check if empty string
for t in tokens:
if wordnet.synsets(t):
only_recognized_words.append(t) # only keep recognized words

但是您确实应该创建一些自定义逻辑来处理 Twitter 数据,特别是处理哈希标签、@replies、用户名、链接、转发等。有很多论文提供了可供收集的策略。

关于python - NLTK WordNet Lemmatizer - 如何删除未知单词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33611766/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com