gpt4 book ai didi

java - 提取字符串中的相邻单词以帮助提高命名实体识别器的准确性

转载 作者:太空宇宙 更新时间:2023-11-04 11:57:16 24 4
gpt4 key购买 nike

我正在致力于在斯坦福 NER 的基础上进行构建,以提高其准确性。这个想法是识别 POS 标签,然后收集句子中的所有 NNP,然后迭代每个 NNP 并查看句子中其相邻的单词。如果单词周围存在诸如“CEO of”或“xyz said”之类的句法提示,那么我们就知道第一个 NNP 可能是一个组织的名称,第二个 NNP 可能是一个人。我正在尝试在解析器之上构建规则,以识别 NER 标记器无法识别的标签。

到目前为止,我已经能够提取 NNP,但提取相邻单词是我遇到的困难。在 Java 或斯坦福 NER 中没有太多信息可以做到这一点。有一些东西可以与 Leucen 一起使用,比如 NGramExtractor

如何在文本中执行此窗口操作?谢谢你的帮助。伪代码或指令也可以。

最佳答案

对于使用此类规则来事后猜测统计模型,我应该发出必要的警告,即这种事情经常会适得其反。当前的 CRF 模型具有应该捕获这些类型模式的功能,如果它没有捕获它们,那么很有可能 (1) 该模式不经常出现,或者 (2) 存在您没有想到的模式的反例。

也就是说,您可以相当轻松地创建 TokensRegex提取器来标记这些类型的模式。这实际上就是 SUTime(CoreNLP 的时间解析器)的实现方式。

关于java - 提取字符串中的相邻单词以帮助提高命名实体识别器的准确性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41259146/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com