elasticsearch - Elasticsearch 滚动行为-6ren

elasticsearch - Elasticsearch 滚动行为

转载作者：行者123 更新时间：2023-12-04 05:42:52

28

4

我在 Elastic Search 中发现了滚动功能，这看起来非常有趣。看了那么多文档，下面的问题我还是不清楚。

如果偏移量已经存在那么为什么要使用滚动？
即将到来的记录呢？假设它完成了所有数据的滚动，然后几秒钟后新数据进入索引，那么它将如何工作？它也会滚动以获取新记录，例如流式传输吗？
假设由于服务器负载或互联网问题导致连接中断，那么它会从一开始就开始滚动数据吗？

所有这些问题都与将数据从旧索引重新索引到新索引有关。

最佳答案

我会尝试提供一些这方面的信息，因为我最近也对此做了一些研究:

If offset is already there then why to use scroll?

我不确定是否可以将滚动与偏移结合使用。但我相信主要区别在于偏移量查询会给你“错误”的结果。 False 就它将正确执行您的查询而言，但是请考虑其间的所有更新。就重建索引而言，这是错误的，因为您有丢失数据的风险。想象一下，您对 10k 个结果进行偏移查询，然后花费 2 分钟来处理它。您可能会在 2 分钟内更新您的对象(或插入)。这意味着将您的查询偏移 10k 可能最终指向跳过中间几行的结果，或者指向已经存在的结果(想象中间的删除)。然而，滚动保证保持搜索上下文事件并以清晰和严格的方式返回结果，其中不会考虑更新。

我认为所需的行为可以通过常量排序 + 搜索来实现，如下所述:https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-search-after.html这应该使结果稳定(反过来光标指向偏移量是正确的)但是它仍然会考虑 2 个请求之间发生的所有更改(我认为)。

我想通过更改您的配置(例如 logstash)开始将正确的文档插入新索引，然后滚动所有旧数据以将其重新索引到新索引中来重新索引。通过使用滚动，您仍然可以使用旧数据，而更改不会影响您的重建索引操作。

文档:

While a search request returns a single “page” of results, the scroll API can be used to retrieve large numbers of results (or even all results) from a single search request, in much the same way as you would use a cursor on a traditional database.

接下来:

What about upcoming records? Suppose it finished to scroll all data and then after few seconds new data came into the index, then how it will work? will it scroll to get new records also, like streaming?

滚动将保留它在第一次滚动请求时创建的结果。这是通过拍摄快照并防止将更改发布到特定卷轴来完成的。文档:

The results that are returned from a scroll request reflect the state of the index at the time that the initial search request was made, like a snapshot in time. Subsequent changes to documents (index, update or delete) will only affect later search requests.

第三个:

Suppose connection is broken because of server load or internet issue, then will it start scrolling data from starting?

这没关系。滚动带有一个分配，例如POST/twitter/tweet/_search?scroll=1m 其中赋值 1m 向 elasticsearch 指示搜索上下文在 ES 服务器中保持事件状态的时间。这意味着，如果您的连接中断，您需要做的就是获取您的滚动 ID 并使用它来创建一个新请求。 ES 会将那个 id 匹配到现有的搜索上下文并给你预期的结果。文档:

In order to use scrolling, the initial search request should specify the scroll parameter in the query string, which tells Elasticsearch how long it should keep the “search context” alive (see Keeping the search context alive), eg ?scroll=1m.

通常，所有这些信息都可以在这里找到: https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-scroll.html

希望对您有所帮助，

阿图尔

关于elasticsearch - Elasticsearch 滚动行为，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40401415/

28

4

0

文章推荐： ruby-on-rails - Rails 4 相当于 Rails 3 'Model.all'

文章推荐： ruby-on-rails - Rails ActiveRecord 按日期将结果分组为子集合

文章推荐： tableau-api - Tableau 可以连接到任意 REST API 作为数据源吗？

javascript - 如何使 textarea 内容可以设置样式或设置 div 行为(如 textarea 行为)？
我想创建一个基于 jQuery 的非常简单的 html 编辑器(不是所见即所得)。我的问题是如何制作 textarea或 div可能在上面写一些文字然后样式即标签(例如 some stuff 将
Ant isset 行为
根据文档 isset 条款“测试此项目中是否已设置给定属性”。我不明白设置属性时 isset 返回 true 还是 false 在下面的代码片段中，当 env.JAVA_HOME 未设置时，java.
关于默认命令超时的 Vim 行为
我正在尝试取消映射 o这是执行 :only 的默认命令( :help :only )，所以我尝试的第一件事是: nmap o 这种作品，除非我按，等待超过timeoutlen ms 然后按 o
Django auto_now 行为
我有以下型号: class MetaData(models.Model): created_at = models.DateTimeField(auto_now_add=True, auto_
R strftime() 行为
下面列出了两行代码。两者对日期和时间的期望相同，但只有一个有效。我正在使用 R 3.1。以下不起作用: DateTime2=strftime("08/13/2010 05:26:24.350", f
C 行为(非初始化值)
我有一个关于 C 代码的问题。 #include void foo(void){ int a; printf("%d\n",a); } void bar(void){
Java BufferedInputStream 行为
如果文件大小 > 8k，为什么读取的最后一个字节 = 0？ private static final int GAP_SIZE = 8 * 1024; public static void main(
powershell - ValueFromPipeline 行为？
我有一个命令 Get-Testdata从不同来源检索测试数据并将这些数据存储到 PSObject以不同的值作为属性。然后将对象总数存储为数组，以便于操作、排序、计算等。我的问题是我希望能够将这些数据
写入文件描述符时的 epoll 行为
我正在使用 epoll 将大消息写入使用 HTTP 协议(protocol)的服务器。 fds 都设置为非阻塞，我正在使用边缘触发事件。我知道对于 EPOLLIN，我需要循环读取 fd，直到返回 EA
PHP intval() 行为？
这对我来说听起来很奇怪: $test_1 = 'string'; $test_2 = '0'; var_dump(intval($test_1)); // Output: int 0 var_dump
java - 在java中等于和==行为
这个问题在这里已经有了答案: Java: Integer equals vs. == (7 个回答) 7年前关闭。请您解释以下行为。 public class EqAndRef { publ
jquery - Drupal 行为
Drupal 的行为到底是什么？它为模块开发人员提供什么类型的服务层？它映射到 jQuery.ready 的关系类型是什么？最佳答案长版:Drupal.behaviors 不仅仅是 jQuer
iphone - dispatch_get_global_queue 行为
以下代码: dispatch_async(dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_HIGH, 0), ^{ for (int i=0
javascript - 移动设备上的奇怪的toggle()行为
人们可以将项目添加到数据库中。我让他们选择在此时添加它，或手动选择日期。因此我得到了这个 HTML 结构。 (请注意，我将日期和时间选择器妥协为只有一行文本) Selec
r - is.nan() 行为
创建了一个数据框: simpleDF is.na(simpleDF$vals) [1] TRUE TRUE FALSE > is.nan(simpleDF$vals) [1] FALSE TRU
Docker Squash 行为
我有一个大的 docker 镜像 A，我创建了一个新的 Dockerfile FROM A RUN rm /big-folder 我尝试使用以下方法构建图像: docker build --squas
操作系统内存不足时的 JVM 行为
我想知道以下情况下 JVM 的行为是什么: JVM 最小堆大小 = 500MB JVM 最大堆大小 = 2GB 操作系统有 1GB 内存 JVM启动后，程序运行一段时间后，使用内存超过1GB。我想知道
Apigee - SpikeArrest 行为
我们正在使用 spikeearrest 策略，但我们不了解其工作原理。峰值逮捕配置如下: 5pm 阅读文档，我们了解到，如果我们在一分钟内调用此流超过 5 次，则该策略将在第 5 次之后
javascript - BodyParser 行为
我正在使用 cURL 发送 POST 请求: curl http://tarvos.local:8080/partial_Users/2 -d '{currentPage : 1, firstID :
java - RowNum 行为
我的表中有 6442670 条记录，我正在使用以下命令获取它们jdbctemplate 使用行号一次 1000000 个。以下是查询 select * from (select rowNum rn

首页

博学

6Ren·AI

商城

elasticsearch - Elasticsearch 滚动行为