作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想使用 tweeter_sample
语料库训练 nltk
,但当我尝试按类别加载示例时出现错误。
首先我尝试这样:
from nltk.corpus import twitter_samples
documents = [(list(twitter_samples.strings(fileid)), category)
for category in twitter_samples.categories()
for fileid in twitter_samples.fileids(category)]
但它给了我这个错误:
Traceback (most recent call last):
File "C:/Users/neptun/PycharmProjects/Thesis/First_sentimental.py", line 6, in <module>
for category in twitter_samples.categories()
File "C:\Users\neptun\AppData\Local\Programs\Python\Python36-32\lib\site-packages\nltk\corpus\util.py", line 119, in __getattr__
return getattr(self, attr)
AttributeError: 'TwitterCorpusReader' object has no attribute 'categories'
我不知道如何为他们提供可用的属性,以便让我的列表包含积极和消极的情绪。
最佳答案
如果您检查 twitter_samples.fileids()
,您会看到有单独的正面和负面文件:
>>> twitter_samples.fileids()
['negative_tweets.json', 'positive_tweets.json', 'tweets.20150430-223406.json']
因此,要将推文分类为正面或负面,只需选择相应的文件即可。这不是 nltk
处理分类语料库的常用方式,但你已经有了。
documents = ([(t, "pos") for t in twitter_samples.strings("positive_tweets.json")] +
[(t, "neg") for t in twitter_samples.strings("negative_tweets.json")])
这将为您提供包含 10000 条推文的数据集。第三个文件包含另外 20000 个,显然没有分类。
关于python - nltk 语料库 tweeter_sample 按类别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43897203/
我想使用 tweeter_sample 语料库训练 nltk,但当我尝试按类别加载示例时出现错误。 首先我尝试这样: from nltk.corpus import twitter_samples d
我想使用 tweeter_sample 语料库训练 nltk,但当我尝试按类别加载示例时出现错误。 首先我尝试这样: from nltk.corpus import twitter_samples d
我是一名优秀的程序员,十分优秀!