gpt4 book ai didi

nlp - 准确度:UIMA的ANNIE,斯坦福大学,OpenNLP

转载 作者:行者123 更新时间:2023-12-03 13:53:43 25 4
gpt4 key购买 nike

我的工作是计划使用UIMA集群运行文档以提取命名实体,而不提取命名实体。据我了解,UIMA打包的NLP组件很少。我已经测试GATE一段时间了,对此相当满意。在普通文本上还可以,但是当我们通过一些代表性的测试数据运行它时,准确性会下降。我们内部拥有的文本数据有时全部为大写,有时全部为小写,或同一文档中两者的混合。即使使用ANNIE的全部大写规则,准确性仍然有很多不足之处。我最近听说过Stanford NLP和OpenNLP,但还没有时间进行广泛的培训和测试。两者在准确性方面如何与ANNIE进行比较?它们是否像GATE一样与UIMA合作?

提前致谢。

最佳答案

对这些系统的性能进行总体估计是不可能/不合理的。如您所说,在测试数据上,准确性下降。这有几个原因,一个是文档的语言特性,另一个是您希望看到的注释的特性。对于每个NER任务,Afaik都有相似但仍不同的注释准则。

话虽如此,关于您的问题:

我可以找到ANNIE是Java中唯一免费的基于开源规则的NER系统。它是为新闻文章而写的,我猜想已经针对MUC 6任务进行了调整。这对于概念验证很有用,但有点过时了。主要优点是,您无需机器学习,nlp或任何一点Java知识,就可以开始对其进行改进。只需学习JAPE并试一试即可。

OpenNLP,Stanford NLP等默认情况下带有新闻文章模型,并且在性能(仅查看结果,从未在大型语料库上对其进行测试)方面优于ANNIE。我更喜欢斯坦福解析器而不是OpenNLP,它只是查看文档,主要是新闻文章。

不知道您的文档是什么样子,我真的不能说更多。您应该确定数据是否适合规则,或者您采用机器学习的方式并使用OpenNLP或Stanford解析器或Illinois tagger或其他任何方法。 Stanford解析器似乎更适合仅输入数据,训练和产生结果,而OpenNLP似乎更适合尝试不同的算法,使用参数等。

对于您的GATE在UIMA方面的争议,我尝试了两者,并发现了更多的病毒社区和更好的GATE文档。抱歉给您个人意见:)

关于nlp - 准确度:UIMA的ANNIE,斯坦福大学,OpenNLP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15857384/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com