gpt4 book ai didi

machine-learning - 文献类型分类

转载 作者:行者123 更新时间:2023-11-30 09:09:41 24 4
gpt4 key购买 nike

我正在寻找图书馆,无论它是机器学习还是其他东西,这都没关系,这将帮助我对我拥有的内容进行分类。基本上我的内容是写的文章,我想知道其中哪些是政治或体育等等,所以我对它们进行了分类。

我正在尝试 openNLP,但无法让它按照我的需要工作,还有什么可以解决我的需求吗?

我想我需要某种具有自然语言处理 NLP 的机器学习,但目前我找不到可以完成我工作的东西。

最佳答案

这是一个简单的实现,但您可以进一步即兴发挥。为了对类别下的段落进行分类,首先尝试提取特定主题的训练数据中的唯一单词。

例如:使用NLTK从谈论体育的段落集合中提取唯一的单词并将其存储在一个集合中。然后对其他主题进行类似的操作并将它们存储在集合中。现在减去集合中的常见单词,以便您现在可以找到可能代表特定主题的特定独特单词。

所以,现在当您输入一个段落时,它应该为您提供 one-hot 输出。现在组合列表中所有唯一的单词。

现在,当您分析一个段落时,如果您找到这些单词,请将它们设置为 1。

就像,在分析第一段之后,您可能会得到如下结果:

[ 0, 0, 1, 0, 1, .... 1, 0, 0] -> 表示找到了位置3的唯一词等

因此,您的训练数据将作为one-hot 编码的输入和输出。即,如果您有三个类别,并且您的第一段属于第一个主题,那么结果将类似于 [1,0,0]。

收集许多输入和结果进行训练,然后使用新输入进行测试。您将获得更高的概率来了解它所适合的主题。

您可以使用基本神经网络和普通的softmax损失函数来训练它。这可能只需要您一个小时即可完成。

祝一切顺利。

关于machine-learning - 文献类型分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42922535/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com