lucene - 使用Lucene实现XQuery全文搜索的提示-6ren

lucene - 使用Lucene实现XQuery全文搜索的提示

转载作者：行者123 更新时间：2023-12-04 19:40:26

26

4

我在先前的项目中使用过Lucene，所以我对API有点熟悉。但是，我从来不需要做任何“幻想”（其中“幻想”是指使用过滤器，使用不同的分析器，增强功能，有效负载等）。

我将着手实现XQuery的全文本搜索功能：

http://www.w3.org/TR/xpath-full-text-10/

它的查询功能是我所见过的最复杂的功能。根据我对Lucene的经验，我知道它可以用于实现某些功能。但是，我想遍历所有这些。对于每个功能，我只需要一个简单的答案，例如“最好使用查询过滤器来实现功能X”，因此我将为每个功能正确地开始。

注意：我将实现自己的查询解析器，并使用Lucene类的各种实例“手动”构造查询。

3.3基数选择

这使您可以说出类似以下内容：

title ftcontains "usability" occurs at least 2 times

这意味着标题字段必须至少包含两次“可用性”。如何才能做到这一点？

3.4.4阻止选项

这使您可以将已被索引的词与查询中词干的词进行匹配，例如：

title ftcontains "improve" with stemming

即使标题包含“改进”，也可以匹配。请注意，由于在查询时而非索引时指定了是否使用词干的决定，因此无法使用PorterStemFilter。

在这种情况下，是否需要将每个单词两次添加到索引中？一次用于原始单词，一次用于词干单词（假设词干单词与原始单词不同）？或者，还有更好的方法？

3.4.5案例选项

这使您可以在查询时指定“不区分大小写”，“区分大小写”，“小写”，“大写”之一。

我认为可以使用查询过滤器来实现最后两个，因为对于“小写”，仅当文档文本全部为小写时（与“大写”相同）才匹配。

但是您如何处理不区分大小写/区分大小写的规范？一种想法是将每个单词加两次：一次在其原始情况下，一次在规范化情况下（任意选择为小写）。还有更好的主意吗？

3.4.6变音符号选项

这与Cast Option相似，除了它的“不区分变音符号”或“不区分变音符号”。如何实现呢？

3.4.7停用词选项

这使您可以指定“ qt查询时间”“带停用词”，例如：

abstract ftcontains "propagating of errors"
with stop words ("a", "the", "of")

将使文档与包含“传播少量错误”的摘要相匹配。我知道这似乎很奇怪。就像停用词变成通配符一样，即：

"propagating of errors" -> "propagating * errors"

*将与文档中的任何单词匹配。如何在Lucene中实现呢？

3.5.3轻度不选择

XQuery具有“ not”的两种味道：（常规）not和“温和的”。这使您可以进行如下查询：

body ftcontains "Mexico" not in "New Mexico"

仅当不包含“新墨西哥”一词时才匹配包含“墨西哥”的文档。我猜想您可以为此使用查询过滤器，是吗？

3.6.1有序选择

这使您可以要求查询中单词的顺序与文档中单词的顺序相匹配，例如：

title ftcontains ("web site" ftand "usability") ordered

仅当文档中同时出现了短语“网站”和“可用性”，并且“可用性”以单词顺序出现在“网站”之后时，该关键字才匹配。 Lucene SpanQuery类必须有权访问单词位置，是吗？您如何访问这些？

3.6.4范围选择

这使您可以要求单词出现在同一“范围”中，例如：

abstract ftcontains "usability" ftand "web site" same sentence

您也可以将{same | different} {sentence | paragraph}进行任意组合。我对此的猜测还应该是跟踪有效负载中的句子/段落数据。是？

3.7忽略选项

给定部分XQuery：

let $x := <book>
  <title>Web Usability and Practice</title>
  <author>Montana <annotation> this author is
      an expert in Web Usability</annotation> Marigold
  </author>
  <editor>Vera Tudor-Medina on Web <annotation> best
      editor on Web Usability</annotation> Usability
  </editor>
</book>

如果我要查询：

book ftcontains "Web Usability" without content $x//annotation

那么它根本不会考虑元素内的任何文本。 “ Web可用性”将被发现两次：一次在title元素中，一次在Editor元素中。请注意，后一元素在“ Web可用性”短语的中间。我对此的猜测还应该是使用有效载荷数据来存储每个单词都位于其中的元素，然后使用基于该元素的过滤器。是？

我意识到这很多，但是任何指针都值得赞赏。谢谢！

最佳答案

您可能有兴趣查看我刚刚在GitHub上发布的Lux项目：https://github.com/msokolov/lux。它集成了Saxon XQuery处理器和Lucene / Solr，可通过XQuery提供全文搜索功能。我采用的方法是提供一个直接公开Lucene查询功能的搜索功能，而不是像这样实现XQuery全文。但是，我相信可以使用类似的方法来实现xqft。 Lux包括两种索引：路径索引（包括元素名称和属性名称）和文本索引，其中节点名称作为令牌文本的一部分（不在有效负载中）。这使得使用现有的Lucene查询变得容易。

但是要更好地回答您的问题：我很确定3.3可以使用带有大斜率的SpanNearQuery来实现。

对于3.4、3.5、3.6和3.7：为了允许查询时分析选择（如词干分析，区分大小写等），有两种可能性：创建多个字段，为每个分析选项选择一个，或添加多个每个分析选项组合都位于同一位置的标记。但是，使用第二个选项时，您还需要向每个令牌添加一些信息，以指示用于创建令牌的分析设置，Lucene在此没有提供任何帮助-您必须像添加有效载荷或前缀一样玩弄技巧术语文本以某种方式。

嗯-刚注意到这个问题是2年前问的，从未回答过。好吧-这显然是一个大项目！

关于lucene - 使用Lucene实现XQuery全文搜索的提示，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2066218/

26

4

0

文章推荐： pdf - 导出为 PDF 时更改文档方向

文章推荐： tfs - 如何在 Visual Studio Team Services 中创建分支？

文章推荐： wpf - 绑定(bind)返回 null 时隐藏多绑定(bind)字符串格式

文章推荐： ruby-on-rails - 设计两次注册提交表格？

lucene - Lucene 和 Lucene.Net 中的俄语分析器
Lucene 对俄语的支持很差。 RussianAnalyzer(lucene-contrib 的一部分)质量非常低。 Snowball 的 RussianStemmer 模块更糟糕。它不识别 Uni
lucene - Lucene 中的多字段搜索
我需要使用 Lucene 对 Books 数据库进行多字段级别搜索。例如:我的搜索条件类似于: (Author:a1 and title:t1) OR (Author:a2 and title:t
lucene - 在 Lucene/Lucene.net 搜索中，如何计算每个文档的点击次数？
在搜索一堆文档时，我可以轻松找到符合我的搜索条件的文档数量: Hits hits = Searcher.Search(query); int DocumentCount = hits.Length()
lucene - Lucene 索引的空间限制是什么？
我正在向 Lucene 索引添加数十亿行，每行几乎是 6000 字节。可以添加到 Lucene 索引的最大行数是否有限制？ Lucene 索引上 6000 字节的十亿行将占用多少空间。这个尺寸有限制吗
lucene - Lucene 搜索的复杂性
如果我编写使用 Lucene 执行搜索的算法，我该如何说明它的计算复杂度？我知道 Lucene 使用 tf*idf 评分，但我不知道它是如何实现的。我发现 tf*idf 具有以下复杂性: O(|D|+
lucene - 如何搜索特殊字符(+ !\? : ) in Lucene
我想在索引中搜索特殊字符。我转义了查询字符串中的所有特殊字符，但是当我在索引中的 lucene 上执行查询为 + 时，它会创建查询为 +()。因此它不搜索任何字段。如何解决这个问题呢？我的索引包
lucene - Lucene 中的规范是什么
我不明白它们是什么，我真的很感激一个简单的解释，展示它们给世界带来的值(value)，而没有太多关于它们如何工作的实现细节。最佳答案范数是计算分数的一部分。可以根据您的喜好计算标准，真的。使规范与
lucene - Lucene 对文本进行分词的过程
这可以被视为一般 Java 问题，但为了更好地理解，我使用 Lucene 作为示例。您可以在 Lucene 中使用不同的分词器来分词文本。有主要的抽象 Tokenizer 类，然后是许多扩展它的不同
lucene - Lucene 中的多个索引还是单个索引？
我必须索引应该一起搜索的不同类型的数据(文本文档、论坛消息、用户配置文件数据等)(即，单个搜索将返回不同类型数据的结果)。拥有多个索引(每种类型的数据一个)的优缺点是什么？以及对各种数据使用单一索
lucene - Lucene.Net搜索结果突出显示搜索关键字
我使用Lucene.Net为一些文档建立索引。我想向用户展示几行有关为什么该文档出现在结果集中的信息。就像您使用Google进行搜索一样，它会显示链接，然后是链接，其中有几行带有突出显示的关键字。有
lucene - Lucene 中的段是什么？
Lucene 中的段是什么？分段有什么好处？最佳答案 Lucene 索引被分割成更小的 block ，称为段。每个段都有自己的索引。 Lucene 按顺序搜索所有这些。当新的写入器打开以及写入器
lucene - Lucene 是如何工作的
我想了解 lucene 搜索如何运行得如此之快。我在网上找不到任何有用的文档。如果您有任何内容(除了 lucene 源代码)需要阅读，请告诉我。在我的例子中，使用带索引的 mysql5 文本搜索进行
lucene - Lucene 分析器的比较
有人可以解释一下 Lucene 中不同分析器之间的区别吗？我收到 maxClauseCount 异常，我知道可以通过使用 KeywordAnalyzer 来避免这种情况，但我不想在不了解分析器周围问题
lucene - Lucene 查询语言是否可以破解
显然它不能用来破坏索引或破解卡号、密码等(除非有人愚蠢到将卡号或密码放入索引中)。是否有可能因过于复杂的搜索而导致服务器瘫痪？我想我真正需要知道的是我是否可以将用户输入的 Lucene 查询直
lucene - 查找两个文档之间的相似性 Lucene
我已经索引了 400 个文档。然后我想给两个文档和 lucene 返回这两个文档之间的相似度。那可能吗？提前致谢。最佳答案简而言之。计算两个文档向量的余弦。 example code 关于luce
lucene - Lucene 中的文档必须包含相同的字段吗？
我正在考虑/致力于为我们公司的各种内容类型实现一个搜索引擎，并尝试着迷于 Lucene(特别是 .net 风格)。目前，我的主要问题是索引的文档是否必须包含相同的字段。例如: 文档1: 标题:“我
lucene - Lucene 评分问题
我对 Lucene 的评分功能有一个问题，我无法弄清楚。到目前为止，我已经能够编写这段代码来重现它。 package lucenebug; import java.util.Arrays; impor
lucene - Lucene。如何建立术语文档矩阵
我需要建立该矩阵，但找不到用于为每个单元格计算归一化tf-idf的方法。我要执行的归一化是余弦归一化，将tf-idf(使用DefaultSimilarity计算)除以1 / sqrt(列中的sumO
lucene - 在没有针对内容所用语言的分析器的情况下实现 Lucene？
有意义吗？对于我的客户来说，开发克罗地亚语分析器太昂贵了，我没有找到任何现有的分析器...所以我的问题是...我是否告诉他们放弃使用 Lucene 来处理克罗地亚语内容的想法？谢谢! 最佳答案 S
lucene - Lucene 索引多久更新一次？
频繁更新 lucene 索引(每隔几秒)可以吗？更新将同样是添加，更新和搜索将同时发生。最佳答案我将在这个答案前面加上“我只使用过 Java Lucene”，但这应该仍然适用:从一般意义上讲，按照

首页

博学

6Ren·AI

商城

lucene - 使用Lucene实现XQuery全文搜索的提示