gpt4 book ai didi

machine-learning - 如何识别文档类别,例如电影或传记

转载 作者:行者123 更新时间:2023-11-30 09:00:50 25 4
gpt4 key购买 nike

我目前正在运行一项任务,将一些文档分类为一些预定义的类集。为此,我依靠多项式朴素贝叶斯,它适用于大多数类别,如棒球、体育或太空。

但是,如何找到某人的电影或传记等类别的文章? MNB 主要采用词袋行话方法运行。这就是为什么棒球文章很容易被发现,因为它们会包含大量棒球术语。然而,电影或传记文章包含的行话很少。电影文档仅使用该电影特有的文字来描述或评论电影。因此,一篇关于《好人寥寥》的文章可能包含大量法律术语,这可能会导致无意中将其贴上“法律”的标签。传记也是如此,它只是描述一个人的一生。

如何对此类文档进行分类?

最佳答案

一个好的解决方案是使用命名实体识别半监督方法。例如,您在句子中标记了 Actor 的姓名(使用实体提取半监督方法,检查 this ),并获取特定实体的数量(例如:句子中重复的 Actor (我们的实体)的数量越多,就越多)该句子与电影有关)。然后将其添加到一个特征中,这样它对于分类器来说可能具有代表性和重要性,尝试从您的数据集中找到这些特征,并将这些特征提供给您的分类器

您可以通过类似 Chi2 的测量来检查任何添加功能的有效性和影响。或ANOVA F Value

关于machine-learning - 如何识别文档类别,例如电影或传记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38762792/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com