gpt4 book ai didi

elasticsearch - Elasticsearch 滚动行为

转载 作者:行者123 更新时间:2023-12-04 05:42:52 28 4
gpt4 key购买 nike

我在 Elastic Search 中发现了滚动功能,这看起来非常有趣。看了那么多文档,下面的问题我还是不清楚。

  1. 如果偏移量已经存在那么为什么要使用滚动?
  2. 即将到来的记录呢?假设它完成了所有数据的滚动,然后几秒钟后新数据进入索引,那么它将如何工作?它也会滚动以获取新记录,例如流式传输吗?
  3. 假设由于服务器负载或互联网问题导致连接中断,那么它会从一开始就开始滚动数据吗?

所有这些问题都与将数据从旧索引重新索引到新索引有关。

最佳答案

我会尝试提供一些这方面的信息,因为我最近也对此做了一些研究:

If offset is already there then why to use scroll?

我不确定是否可以将滚动与偏移结合使用。但我相信主要区别在于偏移量查询会给你“错误”的结果。 False 就它将正确执行您的查询而言,但是请考虑其间的所有更新。就重建索引而言,这是错误的,因为您有丢失数据的风险。想象一下,您对 10k 个结果进行偏移查询,然后花费 2 分钟来处理它。您可能会在 2 分钟内更新您的对象(或插入)。这意味着将您的查询偏移 10k 可能最终指向跳过中间几行的结果,或者指向已经存在的结果(想象中间的删除)。然而,滚动保证保持搜索上下文事件并以清晰和严格的方式返回结果,其中不会考虑更新。

我认为所需的行为可以通过常量排序 + 搜索来实现,如下所述:https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-search-after.html这应该使结果稳定(反过来光标指向偏移量是正确的)但是它仍然会考虑 2 个请求之间发生的所有更改(我认为)。

我想通过更改您的配置(例如 logstash)开始将正确的文档插入新索引,然后滚动所有旧数据以将其重新索引到新索引中来重新索引。通过使用滚动,您仍然可以使用旧数据,而更改不会影响您的重建索引操作。

文档:

While a search request returns a single “page” of results, the scroll API can be used to retrieve large numbers of results (or even all results) from a single search request, in much the same way as you would use a cursor on a traditional database.

接下来:

What about upcoming records? Suppose it finished to scroll all data and then after few seconds new data came into the index, then how it will work? will it scroll to get new records also, like streaming?

滚动将保留它在第一次滚动请求时创建的结果。这是通过拍摄快照并防止将更改发布到特定卷轴来完成的。文档:

The results that are returned from a scroll request reflect the state of the index at the time that the initial search request was made, like a snapshot in time. Subsequent changes to documents (index, update or delete) will only affect later search requests.

第三个:

Suppose connection is broken because of server load or internet issue, then will it start scrolling data from starting?

这没关系。滚动带有一个分配,例如POST/twitter/tweet/_search?scroll=1m 其中赋值 1m 向 elasticsearch 指示搜索上下文在 ES 服务器中保持事件状态的时间。这意味着,如果您的连接中断,您需要做的就是获取您的滚动 ID 并使用它来创建一个新请求。 ES 会将那个 id 匹配到现有的搜索上下文并给你预期的结果。文档:

In order to use scrolling, the initial search request should specify the scroll parameter in the query string, which tells Elasticsearch how long it should keep the “search context” alive (see Keeping the search context alive), eg ?scroll=1m.

通常,所有这些信息都可以在这里找到: https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-scroll.html

希望对您有所帮助,

阿图尔

关于elasticsearch - Elasticsearch 滚动行为,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40401415/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com