gpt4 book ai didi

opennlp - 如何为 opennlp 解析器创建我们自己的训练数据

转载 作者:行者123 更新时间:2023-12-01 01:05:03 27 4
gpt4 key购买 nike

我是 opennlp 的新手,需要帮助来自定义解析器

我使用了带有预训练模型 en-pos-maxtent.bin 的 opennlp 解析器,用相应的语音部分标记新的原始英语句子,现在我想自定义标签。

例句:
狗跳过墙。

使用 en-pos-maxtent.bin 进行 POS 标记后,结果将是

狗 - NNP

跳跃 - VBD

过 - IN

- DT

墙 - NN

但我想训练我自己的模型并用我的自定义标签来标记单词,例如

狗 - PERP

跳跃 - ACT

过 - OTH

- OTH

墙 - OBJ

其中,PERP、ACT、OTH、OBJ 是适合我的必需品的标签。这可能吗 ?

我检查了他们的文档部分,他们给出了训练模型并稍后使用的代码,代码是这样的

try {
dataIn = new FileInputStream("en-pos.train");
ObjectStream<String> lineStream = new PlainTextByLineStream(dataIn, "UTF-8");
ObjectStream<POSSample> sampleStream = new WordTagSampleStream(lineStream);

model = POSTaggerME.train("en", sampleStream, TrainingParameters.defaultParams(), null, null);
}
catch (IOException e) {
// Failed to read or parse training data, training failed
e.printStackTrace();
}

我无法理解这个“en-pos.train”是什么?

这个文件的格式是什么?我们可以在这里指定自定义标签或者这个文件到底是什么?

任何帮助,将不胜感激

谢谢

最佳答案

它记录在 http://opennlp.apache.org/documentation/manual/opennlp.html#tools.postagger.training - 每行一个句子,单词与标签之间用下划线分隔:

About_IN 10_CD Euro_NNP ,_, I_PRP reckon_VBP ._.
That_DT sounds_VBZ good_JJ ._.

关于opennlp - 如何为 opennlp 解析器创建我们自己的训练数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19534650/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com