- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的工作是计划使用UIMA集群运行文档以提取命名实体,而不提取命名实体。据我了解,UIMA打包的NLP组件很少。我已经测试GATE一段时间了,对此相当满意。在普通文本上还可以,但是当我们通过一些代表性的测试数据运行它时,准确性会下降。我们内部拥有的文本数据有时全部为大写,有时全部为小写,或同一文档中两者的混合。即使使用ANNIE的全部大写规则,准确性仍然有很多不足之处。我最近听说过Stanford NLP和OpenNLP,但还没有时间进行广泛的培训和测试。两者在准确性方面如何与ANNIE进行比较?它们是否像GATE一样与UIMA合作?
提前致谢。
最佳答案
对这些系统的性能进行总体估计是不可能/不合理的。如您所说,在测试数据上,准确性下降。这有几个原因,一个是文档的语言特性,另一个是您希望看到的注释的特性。对于每个NER任务,Afaik都有相似但仍不同的注释准则。
话虽如此,关于您的问题:
我可以找到ANNIE是Java中唯一免费的基于开源规则的NER系统。它是为新闻文章而写的,我猜想已经针对MUC 6任务进行了调整。这对于概念验证很有用,但有点过时了。主要优点是,您无需机器学习,nlp或任何一点Java知识,就可以开始对其进行改进。只需学习JAPE并试一试即可。
OpenNLP,Stanford NLP等默认情况下带有新闻文章模型,并且在性能(仅查看结果,从未在大型语料库上对其进行测试)方面优于ANNIE。我更喜欢斯坦福解析器而不是OpenNLP,它只是查看文档,主要是新闻文章。
不知道您的文档是什么样子,我真的不能说更多。您应该确定数据是否适合规则,或者您采用机器学习的方式并使用OpenNLP或Stanford解析器或Illinois tagger或其他任何方法。 Stanford解析器似乎更适合仅输入数据,训练和产生结果,而OpenNLP似乎更适合尝试不同的算法,使用参数等。
对于您的GATE在UIMA方面的争议,我尝试了两者,并发现了更多的病毒社区和更好的GATE文档。抱歉给您个人意见:)
关于nlp - 准确度:UIMA的ANNIE,斯坦福大学,OpenNLP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15857384/
您好,我一直在努力从事信息检索方面的工作,但遇到了一些困难。最近我从以下链接下载了 StandAloneAnnie.java http://gate.ac.uk/wiki/code-repositor
我一直致力于信息提取,并且能够运行 standAloneAnnie.java http://gate.ac.uk/wiki/code-repository/src/sheffield/examples
我正在尝试使用 ANNIE 提取电子邮件的注释集。电子邮件是 ANNIE 提供的默认注释类型。我正在使用以下代码:- AnnotationSet defaultAnnotSet = doc.getAn
我需要使用 Python 从 App Annie 的 API 中提取一些数据。但是我无法连接。我仔细检查了我的 API key 和“文档”。有谁知道我如何通过他们的 API 进行连接?我不断收到 40
我是 GATE ANNIE 的新手。我尝试了 GATE GUI 界面 并获得了在其上执行任务的经验。我想知道如何在 Java 中实现命名实体提取? 我进行了研发,但找不到任何关于命名实体提取的教程。
当我将我的 Apple 帐户连接到 App Annie 时,我创建了一个新的电子邮件地址(实际上只是来 self 域的一个简单的转发电子邮件)附加到一个只能访问销售数据的 Apple 帐户 - 并将该
是否有一个 API 可以让我们为 iPhone 或 iPad 应用程序的价格变化编制索引? 例如,this company , this company , 和 App Annie收集 iOS 价格数
我正在寻找有关在 .net 环境中使用 Gate 和 ANNIE 的指导。是否有人使用 IKVMC 将 GATE 转换为 .NET DLL,并使用转换后的 DLL 在 .NET/C# 中成功运行命名实
我是一名优秀的程序员,十分优秀!