gpt4 book ai didi

search - Lucene 编号提取

转载 作者:行者123 更新时间:2023-12-01 23:50:32 24 4
gpt4 key购买 nike

我有这个号码提取问题。我想要获取所有没有特定号码的比赛例如:125501874、125001873位置 2 处为 55 的所有数字均不予考虑。

第一个数字范围是 0 到 9,第二个数字范围是 1-9,所以实际范围是 [01-99](我们不能将 00 作为前两个数字)

使用 Lucene,我想添加 NOT 字段:[01-99]55*

但是好像不行。有没有一种简单的方法可以找到 ??55* 并在搜索中忽略它(“NOT 字段:[01-99]55*”)?

谢谢 Lucene 大师

最佳答案

如果创建一个仅包含第三个和第四个数字的“仅索引”字段,Lucene 可以非常有效地完成此操作。完整的值可以“存储”(或者如果其他查询使用整数,则存储并索引)在原始字段中。


更新:后续评论问道:“是否有办法仅在第二个数字上创建临时索引?”

使用 ParallelReader “垂直分区”索引的字段。一个分区可以保存当前索引及其字段,而另一个分区是带有新字段的临时索引,可能存储在 RAMDirectory 中。

假设数字“存储”在原始索引中,迭代原始索引中的每个文档,检索存储的字段,解析出关键数字,并将 Document 添加到临时索引与新领域。正如 ParallelReader 文档所述,两个索引中的文档编号必须匹配。

关于search - Lucene 编号提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/769367/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com