gpt4 book ai didi

java - 无监督命名实体识别(NER),带有自定义控制的词汇表,用于 Java 中的交联建议

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:22:53 29 4
gpt4 key购买 nike

我正在寻找一个 Java 库,它可以使用自定义受控词汇表进行命名实体识别 (NER),而无需首先使用带标签的训练数据。我在 SE 上搜索了一些,但大多数问题都不具体。

考虑以下用例:

  • 一位编辑正在 CMS 中输入文章(大约 500 字)。
  • 文本可能包含对特定域实体的引用(以纯文本形式)。例如:
    • 兴趣点的名称,例如酒吧、餐馆以及社区等。
  • 存在这些实体的受控词汇表(大约 5.000 个实体)。
    • 我想象一个实体是词汇表中的一个元组
  • 完成文本后,用户应该能够保存文档。
  • 这会触发工作流,通过与实体名称进行比较,根据词汇表扫描一段文本。不需要 100% 匹配:Jarao-winkler 上的 97% 或其他(我不熟悉算法的 NER 使用的)可能就足够了,我需要它是可配置的。
  • 命中返回到 Controller 服务器端。这反过来将 JSON 返回给包含实体的客户端,这些实体表示为对编辑器的建议交叉链接。

理想情况下,我正在寻找一个使用 NRE 来建议 CMS 环境中的交叉链接的项目。 (例如,我确定存在 wordpress 插件)不太确定 Java 中是否存在类似的东西。

也欢迎所有其他更通用的指向与受控自定义词汇表一起使用的 NRE 库的指针。

最佳答案

对于将来查找此内容的人:

“基于字典的近似分块”参见:http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

(已编辑 URL。)

关于java - 无监督命名实体识别(NER),带有自定义控制的词汇表,用于 Java 中的交联建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7663428/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com