gpt4 book ai didi

java - 如何通过 Stanford NLP Tools 训练中文分词器模型

转载 作者:行者123 更新时间:2023-11-29 05:13:47 24 4
gpt4 key购买 nike

我是 Stanford CoreNLP 工具的新手。现在我没有得到一个很好的中文分割结果,所以我想改变 Segmenter 的粒度。我以为我可以通过训练自己的字典来做到这一点。

我下载了 trainSegmenter-20080521文件,并遵循 trainSegmenter-20080521/README.txt

这是 README.txt:

Sat Jun 21 00:57:22 2008
Author: Pi-Chuan Chang

Here's a documentation of how to train and test the segmenter on specific split
range of the CTB data.

The following steps assumes you have 3 files defining the ranges of train/dev/test.
They should be named as "ctb6.train", "ctb6.dev", "ctb6.test" respectively.
The format should be like:
chtb_0003.fid
chtb_0015.fid
...

[STEP 1] change the CTB6 path in the Makefile:
CTB6=/afs/ir/data/linguistic-data/Chinese-Treebank/6/

[STEP 2] download and uncompress the lastest segmenter from:
http://nlp.stanford.edu/software/stanford-chinese-segmenter-2008-05-21.tar.gz
and change this path in the Makefile to your local path:
SEGMENTER=/tmp/stanford-chinese-segmenter-2008-05-21/

[STEP 3] simply type:
make all
You can also split down into these sub-steps:
make internaldict # make internal dictionaries for affixation feaetures
make data # make datasets
make traintest # train & test the CRF segmenter

但是我还有一些问题:

  1. 训练文件的格式是什么,train/dev/test分别是做什么用的?

  2. chtb_0003.fidchtb_0015.fid等是什么?

  3. Makefile中的CTB6路径是什么,看来我应该把变量CTB6改成/afs/ir/data/linguistic -data/Chinese-Treebank/6/.但它就在那里,它似乎不是一个有效的子路径。

顺便说一句,有许多属性应该为特殊需求设置,例如,sighanPostProcessingserDictionary

有什么地方可以获得所有这些属性及其解释吗?

我现在所能做的就是阅读源代码,例如 edu.stanford.nlp.sequences.SeqClassifierFlags.java,但我仍然对这些属性标志感到困惑。

非常感谢任何人的帮助。

最佳答案

我会忽略那个 README。里面的信息已经过时了。

最近的解释在这里:

http://nlp.stanford.edu/software/segmenter-faq.shtml

预期的输入格式是每行一个句子,每行都有已分段的文本。如果您从解析树中获取分段数据,则可以使用一些工具将解析树转换为分段文本。

如果有特定句子未正确切分,可能是因为它使用的是 CTB 切分标准,而您更喜欢不同的标准。也可能是因为分词器不知道的词。如果您将遵循 CTB 分割标准的例句发送给 java-nlp-user,这些未知词最终将进入分割器的训练数据。

关于java - 如何通过 Stanford NLP Tools 训练中文分词器模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27316268/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com