作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有数百万个属于不同类别(100 个类别)的文档。我想找到每个类中的异常文档(不属于该类但分类错误)并过滤它们。我可以通过比较每个文档的标记,使用余弦相似度来计算文档相似度。我无法应用此功能来过滤给定类别的错误分类文档。示例:为简单起见,请考虑 3 个类及其下的文档。
ClassA ClassB ClassC ...
doc1 doc2 doc3
doc4 doc5 doc6
doc7 doc8 doc9
如何有效且高效地找出 doc4(和其他类似文档)被错误分类为 ClassA,以便我的训练数据不包含异常值?
最佳答案
这是无监督学习中的一个难题。它通常被称为主题建模。您可以从运行 LDA(潜在狄利克雷分配)算法开始。我建议使用 gensim 包来实现这一点。不要对所有数据运行它,一开始就使用 20-50,000 个文档。有了初始分类器后,从数百万个文档中,您仅选择那些被分类为属于某个类别且概率高于特定阈值的文档。在这些上再次训练 LDA。这应该会给你更好地分隔的类。重新分类您的数据。
LDA 算法以“软”方式对文档进行分类,因此每个文档都有一定的概率属于 100 个类别中的每一个类别。但通常,那些很可能同时属于多个类的分类会被错误地分类。
您无需人工贴标签即可完成这一切。
关于python - 如何在百万文档分类中找到异常值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59407210/
我是一名优秀的程序员,十分优秀!