gpt4 book ai didi

python - 从 NLTK 中读取古腾堡文本

转载 作者:太空宇宙 更新时间:2023-11-04 05:14:33 25 4
gpt4 key购买 nike

我正在使用以下方法,但它总是抛出无效文件错误:

import nltk

然后

file=open(nltk.corpus.gutenberg.words('austen-persuasion.txt'),"r").read().split().lower()
wordcount={}

for word in file:
if word not in wordcount:
wordcount[word] = 1
else:
wordcount[word] += 1
print ("The frequency of each word in the text file is as follows :")
for k,v in wordcount.items():
print (k, v)

错误如下

TypeError                                 Traceback (most recent call last)
<ipython-input-88-de499228f7ab> in <module>()
1 import nltk
----> 2 file=open(nltk.corpus.gutenberg.words('austen-persuasion.txt'),'r').read().split()
3 #file = nltk.corpus.gutenberg.words('austen-persuasion.txt')
4 wordcount={}
5

TypeError: invalid file: ['[', 'Persuasion', 'by', 'Jane', 'Austen', '1818', ...]

最佳答案

正如@patito 在评论中提到的,您不需要使用read 也不需要使用split,因为nltk 正在读取它作为单词列表。你可以自己看看:

>>> file = nltk.corpus.gutenberg.words('austen-persuasion.txt')
>>> file[0:10]
[u'[', u'Persuasion', u'by', u'Jane', u'Austen', u'1818', u']', u'Chapter', u'1', u'Sir']

您还需要修复字数统计中的缩进,但除此之外它对您有用。

关于python - 从 NLTK 中读取古腾堡文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42120146/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com