gpt4 book ai didi

python-3.x - 使用python3的简单nltk情感分析代码

转载 作者:行者123 更新时间:2023-11-30 09:29:44 24 4
gpt4 key购买 nike

我正在尝试对客户电子邮件进行一些分类。

  1. 电子邮件是高兴还是悲伤(情绪分析)
  2. 电子邮件是否与结算相关。

我正在使用Python3并且认为我必须使用nltk和scikitNLTK - 将帮助理解和阅读我相信的文本scikit - 将进行分类(快乐、悲伤和是否计费)

训练数据集1:几个短语......从一个单词到一个包含5到6个单词的句子。(1 表示高兴,0 表示不高兴)...下面的一些例子

  • 感谢帮助..1
  • 干得好..1
  • 太棒了..1
  • 可怕..0
  • 令人困惑...0
  • 慢点...0

训练数据集2:一些表示计费相关问题的短语..(下面的几个例子)

  • 关于我的账单的问题
  • 账单费用
  • 我的账单太高
  • 付款被拒绝

现在从概念的角度来看这似乎是直接的我在哪里可以找到一些基本代码,它会告诉我

  1. 如何使用自己的训练数据
  2. 我如何加载电子邮件文本作为输入并吐出快乐或悲伤的答案......以及是否计费。

最佳答案

关于您的数据集,您的方法几乎基于词典,因为项目包含的单词很少。

对于计费,基于词典的方法应该是一个好主意。您应该重视电子邮件的主题。

对于情绪分析,您有两种选择:

  • 机器学习:在这种情况下,您应该使用更大的数据集(在我看来,每个项目都应该是完整的电子邮件)。您可以按照 this tutorial 实现朴素贝叶斯分类器.

  • 基于词典的方法:有多种用于情感分析的词典,例如: SentiWordNet (可从nltk.download()下载),MPQA , SentiStrength , WordNet-Affect via WNAffect ,... 预处理:标记化 (nltk.word_tokenize()) 和 POS 标记 (nltk.pos_tag(text))。您还应该考虑否定(极性转变是管理否定的好方法)。

机器学习可提供最佳结果,因此如果您有足够的带注释的电子邮件,那么它是不错的选择。

关于python-3.x - 使用python3的简单nltk情感分析代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31350798/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com