gpt4 book ai didi

java - Apache OpenNLP 名称实体查找器识别错误单词

转载 作者:行者123 更新时间:2023-11-30 02:34:29 24 4
gpt4 key购买 nike

我正在尝试使用 Apache OpenNLP 来识别文本中的日期实体。我创建了一个小 java 程序,它使用以下格式的日期范围生成标签:

<START:date> {dd/MM/yyyy} <END> .

每个标签都是 OpenNLP 定义格式的句子。

我生成了大约 40 万个条目并训练了模型。培训结束后,我尝试通过命令行使用 TokenNameFinder 来验证一切是否正常,但对于每个单词,我输入的查找器将其识别为带日期的实体。例如,当我输入:

today is 17/04/2017

我得到的是:

<START:date> today <END> <START:date> is <END> <START:date> 17/04/2017 <END>  

我认为可能是除了日期之外我没有提供任何单词,因此我尝试在标签前后使用随机字符串,但训练时间很长。

谁能告诉我这是否是我的训练数据集的问题或我必须做的其他事情?

最佳答案

要训练机器学习 Name Finder 模型,您需要一个尽可能接近运行时数据的训练语料库。如果你的约会对象表现良好并且不需要机器学习,你可以尝试基于正则表达式的 RegexNameFinder .

如果训练花费很长时间,要么它太大,要么您没有几个空行来标记文档的结尾。引用Named Entity Recognition有关详细信息的文档。

关于java - Apache OpenNLP 名称实体查找器识别错误单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43455916/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com