gpt4 book ai didi

Lucene 模糊搜索客户姓名和部分地址

转载 作者:行者123 更新时间:2023-12-04 12:14:04 31 4
gpt4 key购买 nike

我正在浏览所有现有的问题帖子,但无法获得相关信息。

我有数百万条人名、姓氏、地址 1、地址 2、国家/地区代码、出生日期的记录文件 - 我想每天使用上述文件检查我的客户列表(我的客户列表也每天更新,并且文件也每天更新)。

对于名字和姓氏,我想要模糊匹配(可能是 lucene 模糊查询/levenshtein 距离 90% 匹配),对于其余字段国家和出生日期我想要完全匹配。

我是 Lucene 的新手,但从帖子的数量来看,这似乎是可能的。

我的问题是:

  • 我应该如何索引我的输入文件?我需要在 FN、LN、国家/地区、DOB 的组合上建立索引并使用该索引进行搜索
  • 我如何在这里使用 Lucene 的模糊查询?

  • 有没有其他方法可以实现相同的功能?

    最佳答案

    Rushik,这里有一些想法:

  • 考虑使用 Solr .开始使用它要容易得多,而不是裸露的 Lucene。
  • 构建文件的 Lucene/Solr 索引。如果您使用多值字段或两个不同的地址字段,则每个客户的文档似乎就足够了。
  • 你每个人有一个唯一的ID吗?要使用 Solr,您需要一个。在 Lucene 中,您无需使用唯一 id 即可逃脱。
  • 将国家代码存储为“关键字”。如果您只需要准确匹配出生日期,您也可以这样做。对于范围查询,您将需要另一种表示。
  • 我假设您的客户列表小于文件。一个可能的策略是每天索引文件中的更改(这里唯一的 id 非常方便 - 否则您需要按查询删除,这可能会错过标记)。然后您可以优化索引,然后搜索更新的客户列表。
  • 你描述的是BooleanQuery , 其子句是对名字和姓氏的模糊查询和对其他字段的术语查询。您可以以编程方式或使用 query parser 创建查询.
  • 考虑对名称使用 soundex,如 here .
  • 关于Lucene 模糊搜索客户姓名和部分地址,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4383866/

    31 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com