python - 使用 NLTK for Python 训练用于情感分析的推文语料库-6ren

python - 使用 NLTK for Python 训练用于情感分析的推文语料库

转载作者：太空宇宙更新时间：2023-11-03 17:45:55

24

4

我正在尝试使用 Python 的 NLTK 来训练自己的语料库进行情感分析。我有两个文本文件:一个包含 25K 条正面推文，每行分隔，另一个包含 25K 条负面推文。

I use this Stackoverflow article, method 2

当我运行此代码来创建语料库时:

import string
from itertools import chain

from nltk.corpus import stopwords
from nltk.probability import FreqDist
from nltk.classify import NaiveBayesClassifier as nbc
from nltk.corpus import CategorizedPlaintextCorpusReader
import nltk

mydir = 'C:\Users\gerbuiker\Desktop\Sentiment Analyse\my_movie_reviews'

mr = CategorizedPlaintextCorpusReader(mydir, r'(?!\.).*\.txt', cat_pattern=r'(neg|pos)/.*', encoding='ascii')
stop = stopwords.words('english')
documents = [([w for w in mr.words(i) if w.lower() not in stop and w.lower() not in string.punctuation], i.split('/')[0]) for i in mr.fileids()]

word_features = FreqDist(chain(*[i for i,j in documents]))
word_features = word_features.keys()[:100]

numtrain = int(len(documents) * 90 / 100)
train_set = [({i:(i in tokens) for i in word_features}, tag) for tokens,tag in documents[:numtrain]]
test_set = [({i:(i in tokens) for i in word_features}, tag) for tokens,tag  in documents[numtrain:]]

classifier = nbc.train(train_set)
print nltk.classify.accuracy(classifier, test_set)
classifier.show_most_informative_features(5)

我收到错误消息:

C:\Users\gerbuiker\Anaconda\python.exe "C:/Users/gerbuiker/Desktop/Sentiment Analyse/CORPUS_POS_NEG/CreateCorpus.py"
Traceback (most recent call last):
  File "C:/Users/gerbuiker/Desktop/Sentiment Analyse/CORPUS_POS_NEG/CreateCorpus.py", line 23, in <module>
    documents = [([w for w in mr.words(i) if w.lower() not in stop and w.lower() not in string.punctuation], i.split('/')[0]) for i in mr.fileids()]
  File "C:\Users\gerbuiker\AppData\Roaming\Python\Python27\site-packages\nltk\corpus\reader\util.py", line 336, in iterate_from
    assert self._len is not None
AssertionError

Process finished with exit code 1

有人知道如何解决这个问题吗？

最佳答案

我不是 100% 肯定，因为我目前不在 Windows 机器上测试这个，但我认为可能让您感兴趣的是 @alvas 原始示例中的路径斜杠方向与您的路径斜杠方向之间的差异适应windows。

具体来说，您使用:'C:\Users\gerbuiker\Desktop\Sentiment Analyse\my_movie_reviews'，而他的示例使用'/home/alvas/my_movie_reviews'。在大多数情况下，这很好，但您尝试重新使用他的 cat_pattern 正则表达式:r'(neg|pos)/.*' 它将匹配中的斜杠他的道路，但拒绝你的道路。

关于python - 使用 NLTK for Python 训练用于情感分析的推文语料库，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29800109/

24

4

0

文章推荐： python - Windows 机器上使用 Python 2.7 和 3.4 的 Pip

文章推荐： c# - 正则表达式替换越来越多

文章推荐： c# - MEF 的对象破坏问题

文章推荐： python - 操作系统错误: [Errno 13] Permission denied

javascript - 情感 - 将样式对象传递到外部库
我正在使用reactjs-popup，它的 Prop 之一是contentStyle，它允许您传递css-in-js对象来设置库中内部div的样式。但是，当我传递带有 @media 的 css 对象
audio - 高质量，情感，流畅和可变的文本到语音引擎？
在查看了一些服务/工具之后，我得出了一个结论。大多数 Text-to-Speech 工具的技术含量太高、太机械化——换句话说，就是质量差的 c 语音。是的，最重要的是，看起来它们带有“硬编码”语音模
css - 情感 css 样式使用与示例相同的代码给我错误
我正在尝试使用 Emotion.sh在我的 React 测试元素中，但我使用与 example 中相同的代码得到以下错误需要考虑的可能有冲突的事情:1、之前用的是npm，现在用的是yarn；2. 我
svm - 训练 libsvm 进行文本分类(情感)
通过以下链接，我有了一些想法。我想问问我是做对了还是做错了。如果我走错了路，请指导我。链接 Using libsvm for text classification c# How to use li
javascript - Gatsby 设置背景图像 CSS-In-JS(情感)
以下设置不显示background-image。作为调试步骤，我尝试在 const background 中设置 background: pink，这确实有效，确认 emotion 正在正确运行。打
r - 如何将多个 qdap 转换链接在一起以进行 R 中的文本挖掘/情感(极性)分析
我有一个 data.frame，其中包含周数 week 和文本评论 text。我想将 week 变量视为我的分组变量，并对它运行一些基本的文本分析(例如 qdap::polarity)。一些评论文本有
python - Stanford NLP Parser 对 Kaggle Movie 评论中使用的相同语句给出不同的结果(情感)
我正在研究 Kaggle 电影情感分析，我发现电影评论已使用 Standford Parser 进行了解析。在探索数据集时，我发现相同的语句给出了不同的设置- their parents , wise
c++ - Affectiva 情感 SDK - 调用 .setLicensePath() 和 setClassifierPath() 时抛出异常
我正在尝试使用Affectiva emotion sdk 制作一个演示程序。但是，当我调用 detector.setLicensePath() 时，会抛出一个异常(见下图)。有谁知道如何解决这个问题？
reactjs - 无法让 Typescript 理解 Material-UI 组件上的 css Prop (情感)
我想设置一个使用 Material-UI v4.11.4 的 Typescript 项目来使用情感进行样式设置，为 MUI v5 版本做准备。目标是在项目中引入情感，以便开发人员可以开始使用新样式，而

首页

博学

6Ren·AI

商城

python - 使用 NLTK for Python 训练用于情感分析的推文语料库