gpt4 book ai didi

machine-learning - 如何使用 OpenNLP 根据文本类别标记文本?

转载 作者:行者123 更新时间:2023-11-30 09:57:11 24 4
gpt4 key购买 nike

我想根据文本所属的类别来标记文本...

例如...

“使用微芯片监控离合器和齿轮” -> 离合器/机械、齿轮/机械、微芯片/电子

“此处用于监测氢气水平的软件”-> 软件/计算机,氢气/化学..

如何使用 openNLP 或其他 NLP 引擎执行此操作。

我的作品
我尝试了NER模型,但它需要大量的训练语料库,而我没有?

我的需求

是否有现成的训练语料库可用于 NER 或分类(它必须包含科学和工程单词)..?

最佳答案

如果您想为整个句子创建一组类标签,那么您将需要使用 Doccat 库。使用 Doccat,您将获得每个文本 block 的概率分布。使用 doccat 您的示例将生成如下内容:

“离合器和齿轮使用微芯片进行监控” -> 机械 0.85847568,电子 0.374658

使用 doocat,您将丢失关键字->classlabel 映射,因此,如果您确实需要它,doccat 可能不会删除它。

对于 NER,OpenNLP 有一个名为 Modelbuilder-addon 的插件可以帮助您。它旨在加速 NER 模型构建的创建。您可以为每个类别创建一个文件/列表,其中包含您能想到的尽可能多的术语,然后创建一个包含一堆句子的文件,然后使用插件使用种子术语和句子文件创建 NER 模型。请参阅我之前用代码示例描述过的这篇文章。您必须从 SVN 中下载该插件。

OpenNLP: foreign names does not get recognized

关于machine-learning - 如何使用 OpenNLP 根据文本类别标记文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21569597/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com