gpt4 book ai didi

java - 具有零编辑距离的基于字典的命名实体识别 : LingPipe, Lucene 或什么?

转载 作者:行者123 更新时间:2023-11-30 11:57:26 25 4
gpt4 key购买 nike

我正在尝试对某些文档执行基于字典的 NER。无论数据类型如何,我的字典都由字符串的键值对组成。我想搜索文档中的所有键,并在匹配出现时返回该键的相应值。

问题是,我的字典相当大:大约 700 万个键值 - 键的平均长度:8 个和值的平均长度:20 个字符。

我已尝试将 LingPipe 与 MapDictionary 结合使用,但在我所需的环境设置中,它在插入 200,000 行后内存不足。我不清楚为什么 LingPipe 在他们的算法中使用 map 而不是 hashmap。

所以问题是,我以前没有任何使用 Lucene 的经验,我想知道它是否能以更简单的方式实现如此数量的事情。

附言。我已经尝试将数据分块到多个字典中并将它们写入磁盘,但速度相对较慢。

感谢您的帮助。

干杯帕萨

最佳答案

我想如果你想重用 LingPipe 的 ExactDictionaryChunker要执行 NER,您可以覆盖他们的 MapDictionary 以存储和检索您选择的 key/value database而不是他们的ObjectToSet (顺便说一下,它确实扩展了 HashMap)。

Lucene/solr 可以用作键/值存储,但如果您不需要额外的搜索功能,只是一个纯粹的查找,其他选项可能更适合您正在做的事情。

关于java - 具有零编辑距离的基于字典的命名实体识别 : LingPipe, Lucene 或什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3810367/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com