gpt4 book ai didi

java - 使用 OpenNLP 进行句子检测

转载 作者:行者123 更新时间:2023-11-30 08:38:29 25 4
gpt4 key购买 nike

我正在试用 OpenNLP 句子检测工具。文本位于文件 - para3.txt 中。内容:

Bob went to London Mary came from Paris Now everything is fine.

我正在使用以下命令运行它:

opennlp SentenceDetector ../models/en-sent.bin < para3.txt

我得到这样的输出:

Bob went to London Mary came from Paris Now everything is fine.

理想情况下,我会看到三个句子作为输出:

Bob went to London.
Mary came from Paris.
Now everything is fine.

现在,如果我尝试其他存在“句号”或“句点”的句子,句子检测就会正常进行。人类会猜到文本中有 3 个句子,但是 OpenNLP 如何完成呢?什么 NLP 工具可以帮助这里???下一级句子检测是什么?

最佳答案

您应该训练您的模型来检测这些类型的句子,即文档中给出的句子检测器训练。创建你的训练文件 en-sent.train:样本训练数据文件。唯一的要求是每个句子都应该在训练文件中单独一行,如下所示。

句子 1

句子 2

句子 3

……

……

然后使用命令行界面:

opennlp SentenceDetectorTrainer -model en-sent_trained.bin -lang en -data en-sent.train -encoding UTF-8

这将给出一个模型文件:en-sent_trained.bin

现在使用这个 .bin 文件代替 en-sent.bin

希望这对您有所帮助!

关于java - 使用 OpenNLP 进行句子检测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36516363/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com