gpt4 book ai didi

python - 如何扩展elasticsearch使其每秒可以索引大量文档?

转载 作者:行者123 更新时间:2023-12-03 02:04:44 24 4
gpt4 key购买 nike

在使用河流索引数据时,我有一个基本的Elasticsearch集群。我想分两个阶段扩展 future 的增长。每秒索引的文档数量可能是瓶颈。

  • 阶段1:每秒将100个文档索引到elasticsearch
  • 阶段2:每秒将10000个文档索引到elasticsearch


  • 我应该怎么做?

    提前致谢!

    编辑:
    我正在尝试索引Twitter流。
    每个文档= 2 KB左右。
    硬件很灵活。现在我有磁盘(具有50 GB的RAM),但是获得SSD(以及更好的配置)并不重要。

    最佳答案

    来自实验和文章的一些要点:

  • 由于您将进行大量编写,因此请确保从大量的主要碎片开始。您可以根据要拥有/需要的节点数来做出决定。基本上,您要确保主碎片分布在不同的节点上,以便它们可以共享工作。创建索引后,您将无法更改主分片的数量,因此请考虑一下。
  • 不要将超过50%的计算机内存分配给ES。其余的将由Lucene使用(请参阅http://www.elasticsearch.org/guide/en/elasticsearch/guide/current/heap-sizing.html)
  • 使用SSD。索引时,I / O扮演着重要角色(请参见http://www.elasticsearch.org/blog/performance-considerations-elasticsearch-indexing/)
  • 通常:I / O>内存>多CPU内核>快速单CPU(请参阅http://www.elasticsearch.org/guide/en/elasticsearch/guide/current/hardware.html)
  • 每个设置几乎都是唯一的,因此找出适合您的最佳配置的最佳方法是尝试一下。 Elasticsearch有一个很棒的监视工具,称为Marvel(http://www.elasticsearch.org/overview/marvel/)

  • 玩得开心 !

    关于python - 如何扩展elasticsearch使其每秒可以索引大量文档?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27953124/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com