python - 如何在 Python 中将我的输入默认字典切换为小写以进行 NLTK 比较-6ren

python - 如何在 Python 中将我的输入默认字典切换为小写以进行 NLTK 比较

转载作者：太空宇宙更新时间：2023-11-04 10:55:21

我有一个 python 字典，看起来像:

defaultdict(<type 'int'>, {u'RT': 1, u'be': 1, u'uniforms': 1, u'@ProFootballWkly:': 1, u'in': 1, u'Nike': 1, u'Brooklyn.': 1, u'ET': 1, u"NFL's": 1, u'will': 1, u'a.m.': 1, u'at': 1, u'unveiled': 1, u'Jimmy': 3, u'11': 1, u'new': 1, u'The': 2, u'today': 1})

我正在处理它:

freq_distribution = nltk.FreqDist(filtered_words)               
top_words = freq_distribution.keys()[:4]     
print top_words

这会输出前 4 个单词，其中包括单词“The”，我试图在此过程发生之前合并删除 Dolch“常用”单词:

filtered_words = [w for w in word_count \
              if not w in stopwords.words('english')]

问题是我仍然以“The”这个词结尾，因为 NLTK 中的所有(停用词)都是小写的。我需要一种方法来获取 word_count 的输入并将其切换为小写。我尝试在各个领域添加 lower() ，例如:

freq_distribution = nltk.FreqDist(word_count.lower())

但没有成功，因为我反复收到以下错误:

AttributeError: 'list' object has no attribute 'lower'

最佳答案

filtered_words = [w for w in word_count \
          if w.lower() not in stopwords.words('english')]

这小写 w before 检查它是否在停用词列表中。所以如果w是"The"，在检查之前它会被转换成the。由于“the”在列表中，它将被过滤掉。

关于python - 如何在 Python 中将我的输入默认字典切换为小写以进行 NLTK 比较，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10239184/

文章推荐： linux - 使用linux命令查找并删除多个文件

文章推荐： java - Akka ActorSystem 在 Java 中永远不会终止

文章推荐： html - Linux - 传输文件和创建文件的区别 - 权限

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何在 Python 中将我的输入默认字典切换为小写以进行 NLTK 比较