作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
(在 jupyter notbook 中执行)我正在对已标记化的文档应用词形还原,我不禁注意到单词“us”每次都会被词形还原为“u”从清晰的角度来看,这是没有意义的,并且可能会导致人们将其理解为其他东西。我是否遗漏了 pos 功能的条件?我该如何解决这个问题?
定义函数
from nltk import pos_tag
def penn2wordNet(treebank_tags):
wordNet_tag = {'NN':'n', 'JJ':'a',
'VB':'v', 'RB':'r'}
try:
return wordNet_tag[penntag[:2]]
except:
return 'n'
paired_tags = []
for doc in wordTokens:
paired_tags.append(pos_tag(doc))
print(paired_tags)
词形还原
from nltk.stem import WordNetLemmatizer
wnl = WordNetLemmatizer()
print(wordTokens[1])
lemmatized_wordTokens = []
for index in range(len(paired_tags)):
lemmatized_wordTokens.append(([wnl.lemmatize(word, pos=penn2wordNet(tag)) for word, tag in paired_tags[index]]))
print(lemmatized_wordTokens[1])
最佳答案
尽管 pos_tag(['us'])
返回 [('us', 'PRP ')]
。这使得 WordNetLemmatizer 将“我们”视为名词。您必须添加一个附加条件来处理人称代词。
关于python - 修复奇怪引理的必要条件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52787562/
我是一名优秀的程序员,十分优秀!