gpt4 book ai didi

machine-learning - 我想要一台机器学习对短文本进行分类

转载 作者:行者123 更新时间:2023-11-30 08:21:32 24 4
gpt4 key购买 nike

我有大量大约 500 字长的短篇故事,我想将它们分为 20 个类别之一:

  • 娱乐
  • 食物
  • 音乐
  • 等等

我可以对其中的一堆进行手动分类,但我想实现机器学习来最终猜测类别。解决这个问题的最佳方法是什么?我应该使用机器学习的标准方法吗?我认为决策树效果不佳,因为它是文本数据......

最佳答案

一个naive Bayes很可能会为你工作。方法是这样的:

  • 修复多个类别并获取(文档、类别)对的训练数据集。
  • 文档的数据向量就像一个词袋。例如取 100 个最常用的单词,除了“the”、“and”等单词。每个单词都有数据向量的固定组成部分(例如“食物”位于位置 5)。特征向量是一个 bool 值数组,每个 bool 值指示该单词是否出现在相应的文档中。

培训:

  • 对于您的训练集,计算每个特征和每个类别的概率:p(C) = C 类文档数/文档总数。
  • 计算某个类中某个特征的概率:p(F|C) = 具有给定特征的类的文档数量(= 文本中存在单词“food”)/给定类中的文档数量。

决定:

  • 给定一个未分类的文档,它属于 C 类的概率与 P(C|F1, ..., F500) = P(C) * P(F1|C) * P(F2|C) 成正比* ... * P(F500|C)。选择使该项最大化的 C。
  • 由于乘法在数值上很困难,因此您可以使用对数之和,它在相同的 C 处最大化:log P(C|F1, ..., F500) = log P(C) + log P( F1|C) + log P(F2|C) + ... + log P(F500|C)。

关于machine-learning - 我想要一台机器学习对短文本进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2696392/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com