gpt4 book ai didi

lucene - 使用免费工具进行实体提取/识别,同时提供 Lucene 索引

转载 作者:行者123 更新时间:2023-12-03 06:41:38 24 4
gpt4 key购买 nike

我目前正在研究从文本(许多文章来自网络)中提取人名、位置、技术单词和类别的选项,然后将其输入到 Lucene/ElasticSearch 索引中。然后附加信息作为元数据添加,并且应该提高搜索的精度。

例如当有人询问“wicket”时,他应该能够确定他指的是板球运动还是 Apache 项目。我尝试自己实现这一点,到目前为止取得了一些小成功。现在我找到了很多工具,但我不确定它们是否适合这个任务,哪些与 Lucene 集成得很好,或者实体提取的精度是否足够高。

我的问题:

  • 有人对上面列出的一些工具及其精确度/召回率有经验吗?或者是否有需要且可用的训练数据。
  • 是否有文章或教程可供我开始使用每种工具的实体提取 (NER)?
  • 它们如何与 Lucene 集成?

以下是与该主题相关的一些问题:

最佳答案

您在“wicket”示例中遇到的问题称为实体消歧,而不是实体提取/识别 (NER)。 NER 可能很有用,但前提是类别足够具体。大多数 NER 系统没有足够的粒度来区分运动和软件项目(这两种类型都不属于通常识别的类型:人员、组织、位置)。

为了消除歧义,您需要一个知识库来消除实体的歧义。 DBpedia 因其覆盖面广而成为典型选择。请参阅我对 How to use DBPedia to extract Tags/Keywords from content? 的回答我提供了更多解释,并提到了几种消除歧义的工具,包括:

这些工具通常使用与语言无关的 API,如 REST,我不知道它们直接提供 Lucene 支持,但我希望我的回答对您要解决的问题有益。

关于lucene - 使用免费工具进行实体提取/识别,同时提供 Lucene 索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7455188/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com