gpt4 book ai didi

java - 如何为 stanford tagger 创建自己的训练语料库?

转载 作者:太空狗 更新时间:2023-10-29 22:55:29 25 4
gpt4 key购买 nike

我必须分析包含大量速记和本地行话的非正式英语文本。因此,我正在考虑为斯坦福标注器创建模型。

我如何创建自己的一组标记语料库供 stanford 标注器训练?

语料库的语法是什么?为了达到理想的性能,我的语料库应该有多长?

最佳答案

要训练 PoS 标注器,请参阅 this mailing list post这也包含在 JavaDocs 中对于 MaxentTagger 类。

edu.stanford.nlp.tagger.maxent.Train class 的 javadocs指定训练格式:

The training file should be in the following format: one word and one tag per line separated by a space or a tab. Each sentence should end in an EOS word-tag pair. (Actually, I'm not entirely sure that is still the case, but it probably won't hurt. -wmorgan)

关于java - 如何为 stanford tagger 创建自己的训练语料库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3156256/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com