solr - 方面查询的巨大时间差异-6ren

solr - 方面查询的巨大时间差异

转载作者：行者123 更新时间：2023-12-01 06:09:50

25

4

我有一个带有 ca 的 SOLR 数据库。 70M 文件。某些查询返回大约 300 个文档。与

facet.field=A 只需要 4 毫秒，
facet.field=B 需要 800 毫秒才能返回!

我的模式有错误吗？可以做得更快吗？

<fieldtype name="B_type" class="solr.TextField" positionIncrementGap="100"    
           sortMissingLast="true" omitNorms="true">
    <analyzer type="index">
        <tokenizer class="solr.KeywordTokenizerFactory" />
        <filter class="solr.StandardFilterFactory" ignoreCase="true" />
    </analyzer>
    <analyzer type="query">
        <tokenizer class="solr.KeywordTokenizerFactory" />
        <filter class="solr.StandardFilterFactory" ignoreCase="true" />
    </analyzer>
</fieldtype>

<field name="A" type="string" indexed="true" stored="true" multiValued="false" />
<field name="B" type="B_type" indexed="true" stored="false" multiValued="true" />

最佳答案

字段 A 是 string 类型，适合用作分面。您的字段 B 已被分析，您去掉了特殊字符并将其小写，这不太适合用作方面。后面的事情是在应用 StandardFilterFactory 时完成的。

在Solr's Wiki关于切面有一个有趣的部分

Because faceting fields are often specified to serve two purposes, human-readable text and drill-down query value, they are frequently indexed differently from fields used for searching and sorting:

They are often not tokenized into separate words

They are often not mapped into lower case

Human-readable punctuation is often not removed (other than double-quotes)

There is often no need to store them, since stored values would look much like indexed values and the faceting mechanism is used for value retrieval.

如您所见，您缺少中间的两点，小写并删除特殊字符。

根据 Indexing Fields with SOLR and LowerCaseFilterFactory 中的建议你应该在你的模式中引入一个新字段，它应该是 string 类型，并通过 copyField 与你的字段 B 保持同步。那个新字段应该用于分面并且应该更快。我们通常使用后缀命名此类字段，例如 B_raw。

由于您确实有 7000 万份文档，因此最好提前使用一个子集对其进行测试以节省您的时间。

关于solr - 方面查询的巨大时间差异，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20636375/

25

4

0

文章推荐： php - Raspberry PI/PHP + Arduino串行通信

文章推荐： javascript - DataTables:获取匹配单列条件的整行的源数据

文章推荐： jQuery parseJSON 对象问题/问题

solr - Solr 复制和 Solr 云有什么区别？
我支持 Rails 项目，其中包含 Rails 应用程序和 Solr 的附加实例。我的环境:rails 3.2.1、ruby 2.1.2、sunspot 2.1.0、Solr 4.1.6。问题:
solr - Solr 添加和 Solr 提交之间的区别
在 Solr 中添加和提交之间的根本区别是什么？我们已经阅读了几个文档，但现在仍然非常清楚它到底做了什么，以及何时使用 Add 和何时使用 Commit？据我了解，Add 将数据添加到 solr 数
solr - Solr 复制和 solr 分片哪个更好？
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 5年前关闭。 Improve t
solr - SOLR 建议器中的上下文过滤
我们可以在 solr suggester 响应中添加上下文而不是上下文过滤吗？我有 5 个不同的类别。每个类别都有不同的名称。我的建议者在名字上工作。我可以得到如下输出吗？ { "term" :
solr - solr 如何与自动升温一起工作？
在 solrconfig.xml 中，filterCache(或 queryResultCache 等)的 'autowarmCount' 表示当新的搜索者到来时将复制多少缓存实体。但是，如果我在 s
solr - 单核或多核 Solr
我们计划部署 Solr 来搜索从通用 CMS 平台发布的多个站点。每种语言都有单独的网站，其他语言的内容主要是从英语翻译过来的。搜索要求包括 – 关键字突出显示、建议(“你是什么意思？”)、停用词
solr - Solr 多核中的最大核心数
我们有一个系统，使用户能够创建应用程序并在其应用程序上存储数据。我们希望将每个应用程序的索引分开。我们为每个应用程序创建一个核心，并在用户进行查询时搜索给定的应用程序。由于应用程序之间没有任何关系，因
solr - solr 是否使用余弦相似度？
我写了一个小型搜索引擎作为我的每周项目。它基于查询向量和文档向量之间的余弦相似度。向量是使用 tf-idf 标记的疮计算的。我开始了解 Apache Solr，它是一个全文搜索引擎。我的问题是 so
solr - 使用/solr/update 建立索引时如何提升 SOLR 文档
为了索引我的网站，我有一个 Ruby 脚本，它反过来生成一个 shell 脚本，将我的文档根目录中的每个文件上传到 Solr。 shell 脚本有很多行，如下所示: curl -s \ "htt
solr - Solr 字段类型如何在多个内核之间共享？
是否可以分享Solr fieldType s 定义于 schema.xml多核之间？我在 Solr 中有许多核心，发现自己正在重新定义 fieldType s 仅基于内置过滤器和分词器。例如
solr - 如何使用命令行停止 solr
我想通过命令停止 solr 所以如果找到这篇文章 http://rc98.net/solrinit echo "Stopping Solr" cd $SOLR_DIR
solr - solr 守护进程
我想用守护进程运行 solr。我在另一篇文章中看到有一个可以运行的 init.d 脚本，但它在我的 ubuntu 环境中似乎有问题。每当我尝试使用/etc/init.d/solr start 运行脚本
solr - solr 搜索结果中的网址和电子邮件
我有一个 solr 搜索返回上下文突出显示结果，显示网址和电子邮件，句点后带有空格 - 例如“www.google.com”或“email@google.com”无论如何要关闭它，以便它们正常显示？谢
solr - SOLR 中的多值属性分组
我遇到了一个问题，其中一个列是多值的。例如:值可以是 (11,22) (11,33) (11,55) , (22,44) , (22,99) 我想执行一个分组操作，它将产生: 11 : 计数 3 22
solr - Solr 查询的不同结果
这个问题在这里已经有了答案: How to select distinct field values using Solr? (6 个回答) 6年前关闭。我有如下 solr 索引数据 7920
solr - Solr 高亮也可以指示原始字段中返回片段的位置或偏移量吗？
背景使用 Solr 4.0.0。我已经索引了一组示例文档的文本并启用了术语向量，因此我可以使用快速向量突出显示为了突出显示，我正在使用带有句子边界的 Break Iterator Boundar
solr - Solr 的分层分面搜索示例
题我在哪里可以找到一个完整的示例，该示例展示了从索引文档到检索搜索结果的分层分面搜索是如何工作的？我的研究到目前为止 Stackoverflow 有一些帖子，但它们都只针对分层分面搜索的某些方面；
solr - Solr 入门
我正在尝试开始使用 Apache Solr，但有些事情我不清楚。通读tutorial ，我已经设置了一个正在运行的 Solr 实例。我感到困惑的是 Solr 的所有配置(架构等)都是 XML 格式的。
solr - Solr 中的计数
我将以下文档存储在 Solr 中: doc { id: string; // this is a unique string that looks like an md5 result
solr - SOLR 中的嵌套字段
我有一个关于在 solr 中创建嵌套字段的可能性的问题。谷歌搜索告诉我一些关于组的信息，但我认为它只是为了结果？我想要的是这样的结构: 类别1 项目 1 (9) 项目 2 (8) 类别2 项目 3

首页

博学

6Ren·AI

商城

solr - 方面查询的巨大时间差异