gpt4 book ai didi

java - 使用 lucene/java 标记名称

转载 作者:行者123 更新时间:2023-11-30 05:56:23 26 4
gpt4 key购买 nike

我有我公司所有员工的姓名(超过 5000 名)。我想编写一个引擎,它可以在在线文章(博客/维基/帮助文档)中即时查找姓名,并用用户电子邮件的“mailto”标签标记它们。

到目前为止,我计划从文章中删除所有停用词,然后在 lucene 索引中搜索每个单词。但即使在这种情况下,我也会看到很多查询命中索引,例如,如果一篇文章有​​ 2000 个单词,并且只有两次引用人名,那么很可能会有 1000 个 lucene 查询。

有没有办法减少这些查询?或者完全不同的方式来实现同样的目的?提前致谢

最佳答案

如果你只有 5000 个名称,我会将它们放入内存中的哈希表中,而不用费心使用 Lucene。您可以通过多种方式对它们进行散列(例如,昵称、第一个最后一个或最后一个第一个等),并且仍然具有相对较小的内存占用和非常高效的性能。

关于java - 使用 lucene/java 标记名称,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7258125/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com