gpt4 book ai didi

python - 对单词重叠的句子进行分类

转载 作者:行者123 更新时间:2023-11-28 18:33:48 24 4
gpt4 key购买 nike

我有这个包含评论(推文、评论)的 CSV 文件。我想将它们分为 4 类,即。

  • 售前
  • 售后
  • 已购买
  • 服务查询

现在我面临的问题是:

  1. 每个词之间有大量重叠的词类别,因此使用 NaiveBayes 是失败的。
  2. 推文的大小只有 160 个字符,最好的方法是什么防止一个类别的单词落入另一个类别。
  3. 我应该选择哪些功能来处理 160 个字符的推文和稍长一些的 Facebook 评论。
  4. 请让我知道任何引用链接/教程链接以跟进,作为该领域的新手

谢谢

最佳答案

我不会这么快就否定朴素贝叶斯。它在许多有很多薄弱线索(如“重叠词”)但没有绝对性的领域中表现良好。这完全取决于您传递给它的功能。我猜你是在盲目地传递给它通常的“词袋”功能,也许是在过滤停用词之后。好吧,如果这不起作用,请再努力一点。

一个好的方法是阅读几百条推文,看看如何知道您正在查看的类别。这会告诉您需要将哪些东西提炼成功能。但一定要查看大量数据,并关注一般模式。

一个例子(但请注意,我没有看过你的语料库):时间表达式可能是判断你是售前还是售后的好线索,但它们需要一些工作来检测.创建一些“过去表达”、“ future 表达”等特征(除了词袋特征),看看是否有帮助。当然,您首先需要弄清楚如何检测它们,但您不必做到完美无缺:您需要寻找任何可以帮助分类器做出更好猜测的东西。 “过去时”可能也是一个值得尝试的好功能。

关于python - 对单词重叠的句子进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34284385/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com