gpt4 book ai didi

elasticsearch - Elasticsearch对1000万个事件的索引编制速度

转载 作者:行者123 更新时间:2023-12-02 22:43:13 25 4
gpt4 key购买 nike

我试图弄清楚为什么Elasticsearch在索引编制方面如此之慢。我不确定这是否是Elasticsearch本身的局限性,但我将分享到目前为止的内容。

我有一个 flex 搜索节点和一个运行在一个盒子上的logstash实例。我的文档大约有15个字段,并且我有一个具有正确类型的 flex 搜索映射设置(尽管我尝试不使用映射并获得几乎相同的结果)。

我一次索引大约8到1千万个事件,并采用了以下方法。

具有以下格式的批量api(我将csv转换为JSON,并将其放入了一个文件中,并在其中 curl

{"create" : {}}
{"field1" : "value1", "field2" : "value2 .... }
{"create" : {}}
{"field1" : "value1", "field2" : "value2 .... }
{"create" : {}}
{"field1" : "value1", "field2" : "value2 .... }

我还尝试了使用原始csv的tcp输入或使用文件侦听器的logstash,并将csv记录到logstash正在侦听的文件的末尾。

这三种方法似乎每秒都吸收约10,000个事件,这非常慢。

难道我做错了什么?我是否应该在批量提取中明确分配一个ID,而不是让其自动生成一个ID?

通过批量API提取时,我已将事件分为50,000个事件文件和100,000个事件文件,并分别提取了每个事件文件。

最佳答案

您会发现我对此here进行了一些研究,您可以下载Indexing Scripts文件,并且该文件具有一些有用的脚本以最大化索引性能。实际上,在硬件和Elasticsearch索引优化方面确实有所不同。即删除副本节点等

希望这对您有所帮助。

关于elasticsearch - Elasticsearch对1000万个事件的索引编制速度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22762908/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com