gpt4 book ai didi

java - 使用 NLP 进行句子检测

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:42:19 24 4
gpt4 key购买 nike

我正在尝试从大量文本中解析出句子。使用 java 我开始使用 NLP 工具,例如 OpenNLP 和 Stanford 的 Parser。

但这就是我卡住的地方。尽管这两个解析器都非常棒,但是当涉及到非统一文本时它们会失败。

例如,在我的文本中,大多数句子都是用句号分隔的,但在某些情况下,例如要点,它们不是。这里两个解析都失败了。

我什至尝试在 stanford 解析中设置多个句子终止符的选项,但输出并没有好多少!

有什么想法吗??

编辑:为了使它更简单,我希望解析分隔符是新行(“\n”)或句点(“。”)的文本......

最佳答案

首先,您必须明确定义任务。确切地说,您对“句子”的定义是什么?除非你有这样的定义,否则你只会原地踏步。

其次,清理脏文本通常是一项与“句子拆分”截然不同的任务。各种 NLP 句子分块器假设输入文本相对干净。从 HTML、提取的 powerpoint 或其他噪音中获取文本是另一个问题。

第三,斯坦福等大口径设备统计。因此,它们保证具有非零错误率。您的数据与他们接受训练的数据越不相似,错误率就越高。

关于java - 使用 NLP 进行句子检测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8471472/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com