elasticsearch - elasticsearch中的source filtering、stored fields、doc values有什么区别？-6ren

elasticsearch - elasticsearch中的source filtering、stored fields、doc values有什么区别？

转载作者：行者123 更新时间：2023-12-02 22:47:43

27

4

我已经阅读了 source filtering 的文档, stored fields , 和 doc values .

In certain situations it can make sense to store a field. For instance, if you have a document with a title, a date, and a very large content field, you may want to retrieve just the title and the date without having to extract those fields from a large _source field

The stored_fields parameter is about fields that are explicitly marked as stored in the mapping, which is off by default and generally not recommended. Use source filtering instead to select subsets of the original source document to be returned.

All fields which support doc values have them enabled by default.

例子1

我有包含 title(短字符串)和 content (>1MB) 的文档。我想搜索匹配的标题，并返回标题。

使用源过滤

GET /_search
{ _source: "obj.title", ... }

使用存储字段

GET /_search
{ _source: false, stored_fields: ["title"], ... }

具有文档值

GET /_search
{_source: false, stored_fields: "_none_", docvalue_fields: "title", ... }

好吧

源过滤请求是从磁盘读取完整的_source、标题和内容，然后应用过滤器并只返回标题，还是elasticsearch只从磁盘读取标题？
源过滤请求是否会使用文档值？
存储字段存储的是分析后的标记还是原始值？
存储的字段或文档值比 _source 更有效还是更不有效？

最佳答案

Will the source filtered request read the full _source, title and content, from disk then apply the filter and return only the title, or will elasticsearch only read the title from disk?

您发送给 Elasticsearch 进行索引的文档将存储在名为 _source 的字段中(默认情况下)。因此，这意味着如果您的文档包含大量数据(例如在您的案例中的 content 字段中)，完整的内容将存储在 _source 字段中。使用源过滤时，首先必须从 _source 字段中检索整个源文档，然后仅返回 title 字段。您在浪费空间，因为 content 字段实际上没有发生任何事情，因为您正在搜索 title 并仅返回 title 值。

在你的情况下，你最好不要存储 _source 文档，而只存储 title 字段(但它也有一些缺点，所以read this before you do )，基本上是这样的:

PUT index
{
  "mappings": {
    "_source": {
      "enabled": false
    },
    "properties": {
      "title": {
        "type": "text",
        "store": true 
      },
      "content": {
        "type": "text"
      }
    }
  }
}

Will the source filtered request use doc values?

文档值默认在所有字段上启用，分析文本字段除外。如果您使用 _source 过滤，它不会使用 doc 值，如上所述，将检索 _source 字段并过滤您指定的字段。

Do stored fields store the analyzed tokens or the original value?

存储的字段存储了 _source 文档中存在的准确值

Are stored fields or doc values more or less efficient than _source?

doc_values 是一个不同的野兽，它更像是一种优化，以某种方式存储非分析字段的标记，以便于对这些值进行排序、过滤和聚合。

如果您不想存储完整的源代码而只想存储几个重要的字段(如上所述)，则存储字段(默认为 false)也是一种优化。_source 字段本身是一个包含整个文档的存储字段。

关于elasticsearch - elasticsearch中的source filtering、stored fields、doc values有什么区别？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57961582/

27

4

0

文章推荐： audio - 如何使用C从麦克风读取

文章推荐： elasticsearch - ELK Stack 服务的默认端口是什么？

文章推荐： elasticsearch - 将ElasticSearch查询转换为Nest C#

c# - 为什么 "test user-doc.doc"==> TESTUS~1.DOC？
我编写了一个 c# 程序，并在未安装 MS-Office 的 PC 中将其与文件扩展名(如 DOC)相关联。然后，我双击名称中包含空白字符的任何文件，我的程序将启动以打开该文件。我使用了以下语句: s
google-docs - 如何使用 Google Docs API 编辑 Google Docs 标题？
我试过创建、批量更新、从 https://developers.google.com/docs/api/how-tos/overview 获取. 即使在 batchUpdate 中，我也看不到编辑 t
linux - 在 Linux 中运行 ls doc*.txt 和 ls doc?*.txt 和 ls doc*?.txt 有什么不同？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
google-docs - Google Docs API - 更新链接表格
我正在尝试使用新 API 更新 Google 文档中的表格。表格链接自 Google 表格。我尝试了谷歌云中的 API 资源管理器。我能够以 json 格式提取文档，然后过滤出表格。但是在表 jso
google-docs - Google Docs API - 模拟用户文件下载
将 Google Docs Java API 与 Google Apps 帐户一起使用，是否可以模拟用户并下载文件？当我运行下面的程序时，它显然是登录到域并冒充用户，因为它检索其中一个文件的详细信息
api-doc - 如何在 api-doc 中设置数组响应？
我试图通过 apidoc 生成 API 文档如果我的回应是一个数组 [ {"id" : 1, "name" : "John"}, {"id" : 2, "name" : "Mary"}
google-docs-api - 无需身份验证的 Google Docs API
是否可以在没有身份验证的情况下在 Google Docs 中查询公开共享的用户文档？我正在寻找的特定最终目标是能够提供用户 ID，然后列出所有公开共享的文档，并在集合中带有特定标记。谢谢。最佳答
elasticsearch - 在elasticsearch中，/doc/_mapping和/doc {“mappings”之间有什么区别……}
我对Elasticsearch映射感到困惑首先，我创建了一个带有映射请求的文档 PUT /person { "mappings":{ "properties":{ "firs
google-docs - Google Doc Query 在一张表中工作，但在另一张表中给出解析错误
我有一个可在一个电子表格中运行的 Google 文档查询。但是，当我复制电子表格时，查询不起作用，并且收到解析错误:无法解析函数 QUERY 参数 2 的查询字符串:NO_COLUMNCol2。我的
java - 如何使用现有 XML DOC 的属性创建新的 XML DOC？
我有一个如下所示的 XML 文档: _1 _2 TASK _3 TASK 我必须使用第一个文档中的节点属性创建另一
read-the-docs - 如何找到 Read-the-docs 项目的 PDF 版本
我没有看到什么？ RTD features页面说: PDF Generation When you build your project on RTD, we automatically build
google-docs - 嵌入式 Google Docs PDF 查看器显示登录页面而不是 PDF
我有一个网页，我在 iFrame 中嵌入了一个 Google 文档查看器 (其中 URL-encoded-URL 是实际编码的 URL)。对于我的许多/大多数用户，Google PDF 文档查看器
google-docs - 在 asp.net 应用程序中使用 google docs
我如何在我的项目中使用 GOOGLE DOCS，我正在使用 asp.net 和 C# 作为后面的代码。基本上我需要在浏览器中以只读形式显示一些 pdf、doc、dox、excel 文档。提前致谢
google-docs-api - 如何使用 Google Docs API 缩进项目符号列表
从看起来像的 Google Doc 开始: * Item 我希望进行一系列 API 调用以将文档转换为: * Item - Subitem 但是，我不知道如何使用 API 做到这一点。 Crea
google-docs - 使用 JavaScript 控制 Google Docs 嵌入式查看器
我需要控制我网站中嵌入的 Google 文档查看器。更具体地说，我需要能够启用/禁用 Google 幻灯片 View 的控件，并能够使用 JavaScript 启动/停止演示文稿。我无法为此找到任何
google-docs - 如何使用 Google Docs API 添加页眉/页脚
我想使用 Google Docs API 将页眉和页脚添加到现有的 Google 文档文件中. 看着documents.batchUpdate ( link ) 我们可以插入文本、替换文本、添加图像和
google-docs - 监控 Google Docs 上的 View 统计信息
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 4 年前。 Improve
javascript - docs 文件夹中的 GitHub Pages 引用 docs 文件夹外部的文件
我已按照 GitHub 的文档进行操作，并使用 docs 成功发布了我的项目页面。我的项目存储库下的文件夹。但我想知道如何解决这个小问题: 我正在开发一个 JavaScript 库 wesa.js ，
java - 无法通过 Docs API 向新的 Google Doc 添加文本
我的程序正在创建文档，每个文档都有需要放入其中的文本。任何调用 InsertTextRequest 的尝试调用错误。 List requests = new ArrayList<>(); reques
如果 doc 的关键字发生变化，则 MySQL 会触发 doc 的更新时间戳
基于此: Set field to automatically insert time-stamp on UPDATE? 我正在尝试创建适合我需要的触发器，但我发现使用 OLD 和 NEW 关键字不方

首页

博学

6Ren·AI

商城

elasticsearch - elasticsearch中的source filtering、stored fields、doc values有什么区别？

例子1