gpt4 book ai didi

java - 文本分类分类器

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:02:37 25 4
gpt4 key购买 nike

有人知道好的开源文本分类模型吗?我知道 Stanford Classifier、Weka、Mallet 等,但它们都需要培训。

我需要将新闻文章分类为体育/政治/健康/游戏/等。是否有任何预训练模型?

Alchemy、OpenCalais 等都不是选项。我需要开源工具(最好是 Java)。

最佳答案

预训练模型假定用于训练的语料库与您尝试分类的文档来自完全相同的领域。通常这不会给你想要的结果,因为你没有原始语料库。机器学习不是静态的,当您训练分类器时,您需要在新功能/信息可用时更新模型。

例如,在体育/政治/健康/游戏等领域对新闻文章进行分类。

首先是什么语言?我们只讨论英语吗?原始语料库是如何标记的?而最大的未知数是 etc. 类别。

训练自己的分类器真的很容易。如果你是对文本进行分类,MALLET 是最好的选择。您可以在不到 10 分钟内启动并运行。您可以在 1 小时内将 MALLET 添加到您自己的应用程序中。

如果您想对新闻文章进行分类,可以使用许多开源语料库作为基础来开始训练。我将从 Reuters-21578 或 RCV-1 开始。

关于java - 文本分类分类器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15274781/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com