gpt4 book ai didi

search - 删除Elasticsearch中的旧条目

转载 作者:行者123 更新时间:2023-12-02 22:45:10 26 4
gpt4 key购买 nike

在一天中的不同随机时间,我将对数据进行“爬网”,然后将其馈入Elasticsearch。这一点工作正常。

但是该索引应该仅反射(reflect)在我最近的爬网中找到的内容,并且我目前没有什么要删除Elasticsearch索引中的内容的内容,该内容是先前爬网中遗留下来的,但在新爬网中找不到。

从我所看到的,我有几种选择:

A)根据物品的年龄删除它们。无效,因为索引时间是随机的。

B)删除整个索引,并提供新数据。似乎效率不高,会给我留下空白或部分索引的时间。

C)进行插入/修改查询,如果未找到则进行插入,如果在索引中已找到,则更新时间戳,然后进行第二遍操作以删除带有较早时间戳记的所有项目。

D)更好的东西。

在这种情况下,删除旧内容的逻辑有效方法是什么?

最佳答案

如果我了解您要执行的操作,并且确定每个爬网都包含完整的数据集,则可以这样做:

  • 抓取基于时间的索引:您索引-201504051656
  • 一口气:
  • 为该新创建的索引
  • 创建别名
  • 从先前的索引
  • 中删除别名
  • 关闭旧索引或删除旧索引

  • 这样,您的应用程序就可以始终与别名对话,并且可以确保始终有要与之对话的索引。从索引中删除大量记录相对繁重,而关闭或删除索引则相对便宜。

    关于search - 删除Elasticsearch中的旧条目,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29458182/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com