gpt4 book ai didi

python - 如何在百万文档分类中找到异常值?

转载 作者:行者123 更新时间:2023-11-30 08:38:51 25 4
gpt4 key购买 nike

我有数百万个属于不同类别(100 个类别)的文档。我想找到每个类中的异常文档(不属于该类但分类错误)并过滤它们。我可以通过比较每个文档的标记,使用余弦相似度来计算文档相似度。我无法应用此功能来过滤给定类别的错误分类文档。示例:为简单起见,请考虑 3 个类及其下的文档。

ClassA  ClassB  ClassC ... 
doc1 doc2 doc3
doc4 doc5 doc6
doc7 doc8 doc9

如何有效且高效地找出 doc4(和其他类似文档)被错误分类为 ClassA,以便我的训练数据不包含异常值?

最佳答案

这是无监督学习中的一个难题。它通常被称为主题建模。您可以从运行 LDA(潜在狄利克雷分配)算法开始。我建议使用 gensim 包来实现这一点。不要对所有数据运行它,一开始就使用 20-50,000 个文档。有了初始分类器后,从数百万个文档中,您仅选择那些被分类为属于某个类别且概率高于特定阈值的文档。在这些上再次训练 LDA。这应该会给你更好地分隔的类。重新分类您的数据。

LDA 算法以“软”方式对文档进行分类,因此每个文档都有一定的概率属于 100 个类别中的每一个类别。但通常,那些很可能同时属于多个类的分类会被错误地分类。

您无需人工贴标签即可完成这一切。

关于python - 如何在百万文档分类中找到异常值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59407210/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com