gpt4 book ai didi

c# - 将 Mallet 作为二元分类器应用于文档分类

转载 作者:太空宇宙 更新时间:2023-11-03 10:34:34 25 4
gpt4 key购买 nike

我已经使用 Mallet 实现了一个文档分类工具,它将文档的每一页分类到特定的类别。我也尝试过 Weka,但 Mallet 在这方面比 Weka 更聪明。我的做法如下:

  1. 将文档页面训练到已知类别
  2. 测试几个示例文档,看看 Mallet 是否能识别特定类别的页面。这里 Mallet 与测试集中的已知类别匹配。
  3. 如果测试成功且令人满意,则使用分类器和 mallet 文件在庞大的文档存储库上运行。

这部分已经实现了,成功率很高。

对于我没有训练过且与已知类别不同的​​文本文档,应返回为 NO Match,Mallet 正在尝试从训练集中为 Mallet 未知的文档找到匹配项。

例如,我的文档有 4 页。第 1 页属于 A 类,第 3 页属于 B 类。第 2 页和第 4 页不属于任何类。如何通过 Mallet 将第 2 页和第 4 页标记为“不匹配”?

请帮助我实现这一目标。如果我做错了什么或任何其他可以给我所需输出的工具,请告诉我。

最佳答案

两个快速的想法:

  1. 您可以为您想要的置信度值指定一些阈值。例如,mallet 以 90% 的置信度说第 1 页属于 A 类,接受它。如果它说第 2 页属于 C 类,置信度为 60%,并且这是最佳值,则可以拒绝该建议。可以通过函数getClassificationScores ( documentation: http://mallet.cs.umass.edu/api/cc/mallet/classify/MaxEnt.html#getClassificationScores(cc.mallet.types.Instance , double[]) 获取分类分数

  2. 您可以使用 python 进行 scikit-learn。我听说如果它不知道你的页面属于哪个类,它会告诉 NA

关于c# - 将 Mallet 作为二元分类器应用于文档分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28362098/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com