gpt4 book ai didi

nltk 函数来计算某些单词的出现次数

转载 作者:行者123 更新时间:2023-12-04 15:22:46 25 4
gpt4 key购买 nike

在 nltk 书中有一个问题
“使用 state_union 语料库阅读器阅读国情咨文地址的文本。计算每个文件中男人、女人和人的出现次数。随着时间的推移,这些词的使用发生了什么变化?”

我以为我可以使用像 state_union('1945-Truman.txt').count('men') 这样的函数
但是,这个 State Union 语料库中有 60 多个文本,我觉得必须有一种更简单的方法来查看每个文本的这些单词的数量,而不是为每个文本一遍又一遍地重复此功能。

最佳答案

您可以使用 .words()语料库中的函数返回字符串列表(即标记/单词):

>>> from nltk.corpus import brown
>>> brown.words()
[u'The', u'Fulton', u'County', u'Grand', u'Jury', ...]

然后使用 Counter()对象计数实例,见 https://docs.python.org/2/library/collections.html#collections.Counter :
>>> wordcounts = Counter(brown.words())

但请注意,计数器区分大小写,请参阅:
>>> from nltk.corpus import brown
>>> from collections import Counter
>>> brown.words()
[u'The', u'Fulton', u'County', u'Grand', u'Jury', ...]
>>> wordcounts = Counter(brown.words())
>>> wordcounts['the']
62713
>>> wordcounts['The']
7258
>>> wordcounts_lower = Counter(i.lower() for i in brown.words())
>>> wordcounts_lower['The']
0
>>> wordcounts_lower['the']
69971

关于nltk 函数来计算某些单词的出现次数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22762893/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com