- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试在推文上使用 NLTK WordNet Lemmatizer。
我想删除在 WordNet 中找不到的所有单词(twitter 句柄等),但 WordNetLemmatizer.lemmatize() 没有反馈。如果找不到该单词,它只会原封不动地返回该单词。
有没有办法检查 WordNet 中是否找到某个单词?
或者有没有更好的方法从字符串中删除除“正确的英语单词”之外的任何内容?
最佳答案
您可以使用wordnet.synsets(token)
进行检查。请务必处理标点符号,然后检查它是否在列表中。这是一个例子:
from nltk.tokenize import WordPunctTokenizer
from nltk.corpus import wordnet
my_list_of_strings = [] # populate list before using
wpt = WordPunctTokenizer()
only_recognized_words = []
for s in my_list_of_strings:
tokens = wpt.tokenize(s)
if tokens: # check if empty string
for t in tokens:
if wordnet.synsets(t):
only_recognized_words.append(t) # only keep recognized words
但是您确实应该创建一些自定义逻辑来处理 Twitter 数据,特别是处理哈希标签、@replies、用户名、链接、转发等。有很多论文提供了可供收集的策略。
关于python - NLTK WordNet Lemmatizer - 如何删除未知单词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33611766/
我将 NLTK WordNet Lemmatizer 用于词性标记项目,首先将训练语料库中的每个单词修改为其词干(就地修改),然后仅在新语料库上进行训练。但是,我发现 lemmatizer 没有像我预
我想将“eat”之类的字符串转换为“eating”、“eats”。我搜索并找到了词形还原作为解决方案,但我遇到的所有词形还原工具都使用词表或字典查找。有没有什么词形还原器可以避免查字典,效率高,可能是
关闭。这个问题需要更多 focused .它目前不接受答案。 想要改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 3 年前。 Improve this q
我在 Brown Corpus 上通过 NLTK 使用 Wordnet Lemmatizer(以确定其中的名词是以单数形式还是复数形式更多地使用)。 即 from nltk.stem.wordnet
对于词形还原 spacy 有一个 lists of words :形容词、副词、动词...以及异常(exception)情况列表: adverbs_irreg... 对于常规的,有一组 rules 让
您好,我对 nltk (2.0.4) 有疑问:我试图阻止“男人”或“ dentry ”这个词,但它似乎不起作用。这是我的代码: ####################################
我正在尝试在推文上使用 NLTK WordNet Lemmatizer。 我想删除在 WordNet 中找不到的所有单词(twitter 句柄等),但 WordNetLemmatizer.lemmat
我正在将 wordNet 词形还原器应用到我的语料库中,并且我需要为词形还原器定义词性标注器: stemmer = PorterStemmer() def lemmitize(document):
我正在尝试使用 NLTK 的 WordNetLemmatizer 对句子中的所有单词进行词形还原。我有很多句子,但我只是使用第一句话来确保我正确执行此操作。这是我所拥有的: train_sentenc
我需要为关键字提取器找到与所有相关词匹配的公共(public)词根。 如何使用 python nltk 词形还原器将单词转换为相同的词根? 例如: generalized, generalizatio
我将词形还原添加到我的计数向量化器中,如 Sklearn page 中所述. from nltk import word_tokenize from nltk.stem import
我是 spacy 的新手,我想使用它的 lemmatizer 功能,但我不知道如何使用它,就像我进入单词字符串一样,它将以单词的基本形式返回字符串。 例子: '单词'=>'单词' '做过' =>'做'
tokens = [The, wage, productivity, nexus, the, process, of, development,....] 我正在尝试使用 SpaCy 的 Lemmat
我是文本分析的新手,正在尝试创建一个词袋模型(使用 sklearn 的 CountVectorizer 方法)。我有一个数据框,其中有一列文本包含“酸”、“酸性”、“酸度”、“木材”、“木质”、“木质
我正在尝试对文本中的单词进行词形还原。例如“pickled”应该变成“pickle”,“ran”应该变成“run”,“raisins”应该变成“raisin”等等。 我正在使用 nltk 的 Word
运行以下命令: from nltk import WordNetLemmatizer as wnl wnl().lemmatize("American") wnl().lemmatize("Ameri
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
我目前正在尝试阻止一个大语料库(大约 800k 个句子)。我已经成功地只阻止了基本的一个。现在的问题是我只想提取特定单词的词干,例如此方法仅适用于引理是原始单词的子字符串的情况。例如,“苹果”一词的后
我知道如何注释一个句子并获得每个单词的引理,但如果我只想对单个单词进行引理,我不知道该怎么做。我试过 Annotation tokenAnnotation = new Annotation("wedd
我将 NLTK WordNet Lemmatizer 用于词性标记项目,首先将训练语料库中的每个单词修改为其词干(就地修改),然后仅在新语料库上进行训练。但是,我发现词形还原器没有按我的预期运行。 例
我是一名优秀的程序员,十分优秀!