gpt4 book ai didi

elasticsearch - ElasticSearch如何处理具有2.3亿个条目的索引?

转载 作者:行者123 更新时间:2023-12-02 22:55:13 24 4
gpt4 key购买 nike

我一直在寻找Elasticsearch,并注意到可以创建索引并批量添加项目。我目前拥有一系列带有2.2亿条目的平面文件。我正在使用Logstash进行分析并将其添加到ElasticSearch,但是我觉得它在1索引以下的存在很难查询。行数据最多不过是1-3个属性。

在这种情况下,Elasticsearch如何起作用?为了有效地查询该索引,您是否只是将其他实例添加到集群中,它们将一起工作以处理集合?

我一直在浏览文档,它在解释要做的事情,但不一定总是在解释为什么要这样做。

最佳答案

In order to effectively query this index, do you just add additional instances to the cluster and they will work together to crunch the set?



那正是您需要做的。通常,这是一个迭代过程:
  • 首先放入数据的子集。如果时间和成本允许,您也可以放入所有数据。
  • 对其施加了一些搜索负载,使其尽可能接近生产条件,例如通过打开您打算使用的任何搜索集成。如果您打算只手动发出查询,那么现在该尝试一下并评估其速度和结果的相关性了。
  • 查看查询是否特别慢,以及查询结果是否足够相关。您可以更改所使用的索引映射或查询以获得更快的结果,并确实向群集中添加更多节点。

  • 自从您提到Logstash以来,有些事情可能会进一步帮助您:
  • checkout Filebeat来持续索引数据。您可能不需要自己进行文件读取和批量索引的工作。
  • 如果它是日志或类似日志的数据,并且您对最近的结果最感兴趣,则按日期和时间拆分数据可能会快得多(例如index-2019-08-11,index-2019-08 -12,index-2019-08-13)。请参见Index Lifecycle Management功能以实现此自动化。
  • 尝试在映射中的适当位置使用Keyword field type。它将停止对字段的分析,从而阻止您在字段内进行全文搜索,并且仅允许精确的字符串匹配。对于诸如[tags]字段或[status]字段之类的字段很有用,例如[[draft],“review”,“published”]值。

  • 祝好运!

    关于elasticsearch - ElasticSearch如何处理具有2.3亿个条目的索引?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57445836/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com