python - 如何在百万文档分类中找到异常值？-6ren

python - 如何在百万文档分类中找到异常值？

转载作者：行者123 更新时间：2023-11-30 08:38:51

我有数百万个属于不同类别(100 个类别)的文档。我想找到每个类中的异常文档(不属于该类但分类错误)并过滤它们。我可以通过比较每个文档的标记，使用余弦相似度来计算文档相似度。我无法应用此功能来过滤给定类别的错误分类文档。示例:为简单起见，请考虑 3 个类及其下的文档。

ClassA  ClassB  ClassC ... 
doc1    doc2    doc3 
doc4    doc5    doc6 
doc7    doc8    doc9

如何有效且高效地找出 doc4(和其他类似文档)被错误分类为 ClassA，以便我的训练数据不包含异常值？

最佳答案

这是无监督学习中的一个难题。它通常被称为主题建模。您可以从运行 LDA(潜在狄利克雷分配)算法开始。我建议使用 gensim 包来实现这一点。不要对所有数据运行它，一开始就使用 20-50,000 个文档。有了初始分类器后，从数百万个文档中，您仅选择那些被分类为属于某个类别且概率高于特定阈值的文档。在这些上再次训练 LDA。这应该会给你更好地分隔的类。重新分类您的数据。

LDA 算法以“软”方式对文档进行分类，因此每个文档都有一定的概率属于 100 个类别中的每一个类别。但通常，那些很可能同时属于多个类的分类会被错误地分类。

您无需人工贴标签即可完成这一切。

关于python - 如何在百万文档分类中找到异常值？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59407210/