lucene - 在 Lucene 中将来自多个文档的命中合并为一个命中-6ren

lucene - 在 Lucene 中将来自多个文档的命中合并为一个命中

转载作者：行者123 更新时间：2023-12-04 07:04:01

26

4

我试图让特定的搜索工作，但事实证明这是有问题的。实际的源数据相当复杂，但可以通过以下示例进行总结:

I have articles that are indexed so that they can be searched. Each article also has multiple properties associated with it which are also indexed and searchable. When users search, they can get hits in either the main article or the associated properties. Regardless of where a hit is achieved, the article is returned as a search hit (ie. the properties are never a hit in their own right).

现在的复杂性:

Each property has security on it, which means that for any given user, they may or may not be able to see the property. If a user cannot see a property, they obviously do not get a search hit in it. This security check is proprietary and cannot be done using the typical mechanism of storing a role in the index alongside the other fields in the document.

我目前有一个索引，其中包含单独索引的文章和属性(即，文章被索引为文档，并且每个属性都有自己的文档)。发生搜索时，应将文章 A 中的命中或文章 A 的任何属性中的命中归类为单独针对文章 A 的命中，并将分数相加。

为了最初实现这一点，Lucene v1.3 被修改为允许通过将 BooleanQuery 更改为具有自定义 Scorer 来实现这一点，该 Scorer 可以应用安全检查的逻辑，并将不同文档中的两个匹配项的组合归类为单个匹配项文档。我正在尝试将此版本升级到最新版本(v2.3.2 - 我使用的是 Lucene.Net)，但理想情况下无需以任何方式修改 Lucene。

如果我进行 AND 搜索，则会出现另一个问题。如果文章包含单词 foo 并且其属性之一包含单词 bar，则搜索“foo AND bar”将返回该文章作为命中。我当前的代码在自定义记分器中处理这个问题。

任何想法如何/是否可以做到这一点？

我正在考虑使用自定义 HitCollector 并将其传递到搜索中，但是在执行 bool 搜索“foo AND bar”时，执行永远不会到达我的 HitCollector，因为 ConjunctionScorer 过滤掉了之前来自子查询的所有结果到达那里。

编辑:

用户能否看到一个属性，不是基于属性本身，而是基于属性的值(value)。因此，我无法预先将额外的安全条件放入查询中，因为我不知道要过滤的值。

举个例子:

+---------+------------+------------+
| Article | Property 1 | Property 2 |
+---------+------------+------------+
|    A    |     X      |     J      |
|    B    |     Y      |     K      |
|    C    |     Z      |     L      |
+---------+------------+------------+

如果用户可以看到所有内容，则搜索“B 和 Y”将返回文章 B 的单个搜索结果。

如果其他用户无法看到属性值包含 Y 的属性，则搜索“B 和 Y”将不会返回任何匹配项。

我无法知道用户可以和不能预先看到哪些值。他们唯一的判断方法是执行安全检查(目前在从文档中的字段过滤命中时完成)，显然我无法对每个用户的每个可能的数据值执行此操作。

最佳答案

现在已经实现了这个(经过大量的挠头和逐步完成 Lucene 搜索)，我想我会回帖我是如何实现它的。

因为我对所有结果都感兴趣(即一次不是一个页面)，所以我可以避免使用 Hits对象(无论如何在更高版本的 Lucene 中已被弃用)。这意味着我可以使用 Search(Weight, Filter, HitCollector) 来做我自己的热门收藏。 IndexSearcher的方法，迭代所有可能的结果并适当组合文档命中。为此，我必须使用 Lucene 的查询机制，但仅当存在 AND 和 NOT 子句时。这是通过以下方式实现的:

创建自定义 QueryParser和覆盖 GetBooleanQuery(ArrayList, bool)返回我自己的实现。

创建自定义 BooleanQuery (从自定义 QueryParser 返回)和覆盖 CreateWeight(Searcher)返回我自己的实现。

创建自定义 Weight (从自定义 BooleanQuery 返回)和覆盖 Scorer(IndexReader)返回我自己的实现。

创建自定义 BooleanScorer2 (从自定义 Weight 返回)并覆盖 Score(HitCollector)方法。这就是处理自定义逻辑的内容。

这可能看起来像很多类，但它们中的大多数都是从 Lucene 类派生的，只是覆盖了一个方法。
Score(HitCollector)的执行自定义中的方法 BooleanScorer2类现在负责执行自定义逻辑。如果没有需要的子评分者，评分可以传递给基础 Score方法并正常运行。如果需要子评分器，则表示查询中存在 NOT 或 AND 子句。在这种情况下，问题中提到的特殊组合逻辑就起作用了。我有一个类(class)叫 ConjunctionScorer这样做(这与 Lucene 中的 ConjunctionScorer 无关)。
ConjunctionScorer获取评分者列表并对其进行迭代。对于每一个，我提取命中及其分数(使用 Doc() 和 Score() 方法)并创建我自己的搜索命中集合，其中仅包含当前用户在执行相关安全检查后可以看到的那些命中。如果另一个得分手已经找到了命中，我将它们组合在一起(使用他们的得分平均值作为他们的新得分)。如果命中来自被禁止的得分手，如果已经找到命中，我将删除该命中。

在所有这一切结束时，我将点击数设置为 HitCollector传入 BooleanScorer2.Score(HitCollector)方法。这是一个定制 HitCollector我传入了 IndexSearcher.Search(Query, HitCollector)最初执行搜索的方法。当此方法返回时，我的自定义 HitCollector现在包含我想要的组合在一起的搜索结果。

希望这些信息对面临同样问题的其他人有用。这听起来很努力，但实际上非常简单。大多数工作是在 ConjunctionScorer 中将命中组合在一起完成的。 .请注意，这是针对 Lucene v2.3.2 的，在以后的版本中可能会有所不同。

关于lucene - 在 Lucene 中将来自多个文档的命中合并为一个命中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1393551/

26

4

0

文章推荐： .net - 如何将 MemoryStream 中的 PDF 发送到 .Net 中的打印机？

文章推荐： PHP 架构，以及按引用传递与按值传递

文章推荐： flash - 位图数据录制视频

lucene - Lucene 和 Lucene.Net 中的俄语分析器
Lucene 对俄语的支持很差。 RussianAnalyzer(lucene-contrib 的一部分)质量非常低。 Snowball 的 RussianStemmer 模块更糟糕。它不识别 Uni
lucene - Lucene 中的多字段搜索
我需要使用 Lucene 对 Books 数据库进行多字段级别搜索。例如:我的搜索条件类似于: (Author:a1 and title:t1) OR (Author:a2 and title:t
lucene - 在 Lucene/Lucene.net 搜索中，如何计算每个文档的点击次数？
在搜索一堆文档时，我可以轻松找到符合我的搜索条件的文档数量: Hits hits = Searcher.Search(query); int DocumentCount = hits.Length()
lucene - Lucene 索引的空间限制是什么？
我正在向 Lucene 索引添加数十亿行，每行几乎是 6000 字节。可以添加到 Lucene 索引的最大行数是否有限制？ Lucene 索引上 6000 字节的十亿行将占用多少空间。这个尺寸有限制吗
lucene - Lucene 搜索的复杂性
如果我编写使用 Lucene 执行搜索的算法，我该如何说明它的计算复杂度？我知道 Lucene 使用 tf*idf 评分，但我不知道它是如何实现的。我发现 tf*idf 具有以下复杂性: O(|D|+
lucene - 如何搜索特殊字符(+ !\? : ) in Lucene
我想在索引中搜索特殊字符。我转义了查询字符串中的所有特殊字符，但是当我在索引中的 lucene 上执行查询为 + 时，它会创建查询为 +()。因此它不搜索任何字段。如何解决这个问题呢？我的索引包
lucene - Lucene 中的规范是什么
我不明白它们是什么，我真的很感激一个简单的解释，展示它们给世界带来的值(value)，而没有太多关于它们如何工作的实现细节。最佳答案范数是计算分数的一部分。可以根据您的喜好计算标准，真的。使规范与
lucene - Lucene 对文本进行分词的过程
这可以被视为一般 Java 问题，但为了更好地理解，我使用 Lucene 作为示例。您可以在 Lucene 中使用不同的分词器来分词文本。有主要的抽象 Tokenizer 类，然后是许多扩展它的不同
lucene - Lucene 中的多个索引还是单个索引？
我必须索引应该一起搜索的不同类型的数据(文本文档、论坛消息、用户配置文件数据等)(即，单个搜索将返回不同类型数据的结果)。拥有多个索引(每种类型的数据一个)的优缺点是什么？以及对各种数据使用单一索
lucene - Lucene.Net搜索结果突出显示搜索关键字
我使用Lucene.Net为一些文档建立索引。我想向用户展示几行有关为什么该文档出现在结果集中的信息。就像您使用Google进行搜索一样，它会显示链接，然后是链接，其中有几行带有突出显示的关键字。有
lucene - Lucene 中的段是什么？
Lucene 中的段是什么？分段有什么好处？最佳答案 Lucene 索引被分割成更小的 block ，称为段。每个段都有自己的索引。 Lucene 按顺序搜索所有这些。当新的写入器打开以及写入器
lucene - Lucene 是如何工作的
我想了解 lucene 搜索如何运行得如此之快。我在网上找不到任何有用的文档。如果您有任何内容(除了 lucene 源代码)需要阅读，请告诉我。在我的例子中，使用带索引的 mysql5 文本搜索进行
lucene - Lucene 分析器的比较
有人可以解释一下 Lucene 中不同分析器之间的区别吗？我收到 maxClauseCount 异常，我知道可以通过使用 KeywordAnalyzer 来避免这种情况，但我不想在不了解分析器周围问题
lucene - Lucene 查询语言是否可以破解
显然它不能用来破坏索引或破解卡号、密码等(除非有人愚蠢到将卡号或密码放入索引中)。是否有可能因过于复杂的搜索而导致服务器瘫痪？我想我真正需要知道的是我是否可以将用户输入的 Lucene 查询直
lucene - 查找两个文档之间的相似性 Lucene
我已经索引了 400 个文档。然后我想给两个文档和 lucene 返回这两个文档之间的相似度。那可能吗？提前致谢。最佳答案简而言之。计算两个文档向量的余弦。 example code 关于luce
lucene - Lucene 中的文档必须包含相同的字段吗？
我正在考虑/致力于为我们公司的各种内容类型实现一个搜索引擎，并尝试着迷于 Lucene(特别是 .net 风格)。目前，我的主要问题是索引的文档是否必须包含相同的字段。例如: 文档1: 标题:“我
lucene - Lucene 评分问题
我对 Lucene 的评分功能有一个问题，我无法弄清楚。到目前为止，我已经能够编写这段代码来重现它。 package lucenebug; import java.util.Arrays; impor
lucene - Lucene。如何建立术语文档矩阵
我需要建立该矩阵，但找不到用于为每个单元格计算归一化tf-idf的方法。我要执行的归一化是余弦归一化，将tf-idf(使用DefaultSimilarity计算)除以1 / sqrt(列中的sumO
lucene - 在没有针对内容所用语言的分析器的情况下实现 Lucene？
有意义吗？对于我的客户来说，开发克罗地亚语分析器太昂贵了，我没有找到任何现有的分析器...所以我的问题是...我是否告诉他们放弃使用 Lucene 来处理克罗地亚语内容的想法？谢谢! 最佳答案 S
lucene - Lucene 索引多久更新一次？
频繁更新 lucene 索引(每隔几秒)可以吗？更新将同样是添加，更新和搜索将同时发生。最佳答案我将在这个答案前面加上“我只使用过 Java Lucene”，但这应该仍然适用:从一般意义上讲，按照

首页

博学

6Ren·AI

商城

lucene - 在 Lucene 中将来自多个文档的命中合并为一个命中