gpt4 book ai didi

python - 使用机器学习对大文本进行分类

转载 作者:行者123 更新时间:2023-11-30 08:58:44 24 4
gpt4 key购买 nike

我有一个大型 xls 文档,其中每行包含一个问题 id 、其描述及其 expl 类别:类别 1- A- a1

我正在尝试构建一个机器学习模型,帮助我根据类别对该文档进行分类。目标是对于每个新条目(又名新问题描述),我们将能够定义其各自类别的模型。

限制:我有 10 多个类别,它们也是分层的(类别 1 有不同的子类别,每个子类别有不同的子子类别)。我正在考虑层次分类或多类分类但不能告诉。

描述特征是一个长文本。我正在考虑多项逻辑回归,但我读到它需要数值数据。我是否必须为文档中使用的所有单词制作字典才能为其赋予数值?这是一个正确的选择吗?

我还想要每个新条目的分数来对最近的类别进行分类(对于新的描述 X ,类别 2-B-b1 给出 80% 的分数)

最佳答案

您可以使用的策略之一是伯努利朴素贝叶斯 ( https://en.wikipedia.org/wiki/Naive_Bayes_classifier )。

这是一个简单的数学方程,可让您将问题简化为每个类别的词频的简单列表。

一旦您为已知属于适当类别的文本建立了有意义的词频基线,该公式将能够返回新文本在每个类别中的匹配概率。

这可以给出一个非常大的单词x类别矩阵,但是每个元素的处理非常简单。根据您的数量和性能要求,可以对公式进行优化,以将计算限制为文本中实际存在的单词,以对与已看到的其他单词相关联的因素进行分类和跳过之前但不存在于文本中(如果伯努利分类器与您的解决方案相关,我可以详细说明)。请注意,Python 中可能存在分类器的现有实现(我尚未检查)。

关于python - 使用机器学习对大文本进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49151825/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com