gpt4 book ai didi

Python 朴素贝叶斯将推文分类。方法

转载 作者:太空宇宙 更新时间:2023-11-04 10:38:33 24 4
gpt4 key购买 nike

我正在尝试实现一个朴素贝叶斯算法来从 csv 文件中读取推文并将它们分类到我定义的类别中(例如:技术、科学、政治)

我想使用 NLTK 的朴素贝叶斯分类算法,但该示例与我需要做的相去甚远。

我最大的困惑之一是我们如何提高 NB 的分类准确率?

**我希望得到一些关于我进行分类所需的详细步骤的指导。

  • 我是否必须为我所在的每个类别创建单独的 csv 文件?手动将推文放在那里?
  • 如果执行上述操作,我如何训练算法以及算法如何测试?**

我一直在网上进行研究,发现了一些简短的示例,例如 TextBlob,它使用 NLTK 的 NB 算法对推文进行情感分类。它易于理解,但对于初学者来说很难调整。

http://stevenloria.com/how-to-build-a-text-classification-system-with-python-and-textblob/

在上面链接的示例中,当他已经将情绪放在推文旁边时,他如何实现测试?我想测试一下,我们应该隐藏第二个参数。

train = [
('I love this sandwich.', 'pos'),
('This is an amazing place!', 'pos'),
('I feel very good about these beers.', 'pos'),
('This is my best work.', 'pos'),
("What an awesome view", 'pos'),
('I do not like this restaurant', 'neg'),
('I am tired of this stuff.', 'neg'),
("I can't deal with this", 'neg'),
('He is my sworn enemy!', 'neg'),
('My boss is horrible.', 'neg')
]
test = [
('The beer was good.', 'pos'),
('I do not enjoy my job', 'neg'),
("I ain't feeling dandy today.", 'neg'),
("I feel amazing!", 'pos'),
('Gary is a friend of mine.', 'pos'),
("I can't believe I'm doing this.", 'neg')
]

最佳答案

您首先必须了解贝叶斯的工作原理:

enter image description here

换句话说,你必须找到 P(B|A)、P(A) 和 P(B)。在你的例子中,P(A|B) = P(positive | sentence)。即:

  • P(B) = 句子中出现这个词的概率
  • P(A) = 阳性概率
  • P(B | A) = 给定积极情绪,在 B 中找到单词的概率是多少

你要做的是:

  • 将句子拆分成单词
  • 去掉“the”、“and”、“is”、“was”等“填充词”
  • 为每个句子创建一个属性列表,例如“好”、“坏”、“惊人”等。这些将成为您的贝叶斯分类器的特征。
  • 找出构成“积极”情绪的概率 B(特征百分比)。

接下来,给定一个测试句子:

  1. 像处理训练句子一样将其拆分为特征。
  2. 找出这些词的分数 (B)
  3. 计算这些表示“正面”或“负面”情绪的概率 (=P(A|B))。

这些论点中有些人为编织,请在此处找到更具体的说明,您已经在问题中提到了第二个链接:

回答您的具体问题:

In his example from the link above, how does he implement the test when he already put the sentiment next to the tweets? I thought to test, we should hide the second argument.

为了进行测试,您需要知道正确的结果是什么。否则你无法判断算法的性能有多好,因为它总是会给你“一些”答案。这就是为什么您必须在测试中包含标签(第二个参数)。

关于Python 朴素贝叶斯将推文分类。方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22211721/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com