gpt4 book ai didi

machine-learning - 从短信中提取主题

转载 作者:行者123 更新时间:2023-11-30 09:50:33 25 4
gpt4 key购买 nike

我有一个短信数据集,格式错误且稀疏。我尝试使用主题建模来获取每条消息中所有可能的主题以及每个相关主题的概率。我需要能够对每条消息的主题进行排列或排名的概率。

我正在考虑的替代解决方案是手动标记我的数据集并使用监督分类算法,例如朴素贝叶斯。以下是我的 SMS 消息示例,这些消息稀疏且包含垃圾邮件内容,因此我认为主题建模效果不佳:

enter image description here

我面临的挑战:

  1. 使用监督分类方法的替代方法是否合理,或者我应该保留主题建模等无监督方法?

  2. 我应该如何处理数据集:每条消息应该拥有 1 个类别作为标签还是可以分配多个类别?

  3. 这是一个多标签或多类分类问题吗?

最佳答案

如果您知道主题是什么,请使用监督朴素贝叶斯。无监督学习可用于类发现。

将多个主题分配给一个示例不是问题。

朴素贝叶斯根据概率最高的主题为样本分配标签。当然,您可以使用最高的 x 概率(可能带有阈值)来分配多个主题。

关于machine-learning - 从短信中提取主题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45769270/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com