gpt4 book ai didi

twitter - Elastic Search + twitter River - 我需要多少台机器?

转载 作者:行者123 更新时间:2023-12-03 02:08:48 27 4
gpt4 key购买 nike

我正在运行一个 Elasticsearch 服务器和 twitter River,以从 twitter 公共(public)流中下载数据。最近,我添加了大约 40 条过滤后的河流,它们跟踪了 40 个与我的体验相关的不同关键词。但是,这导致服务器变得相当缓慢。当我在服务器上做一个顶部时,它总是显示 > 100% 的 CPU 消耗。

我的问题是,对于这样的系统,我需要多少台机器。每天下载的数据量为几 GB。目前,我在具有 8GB 内存的单个 8 核机器(Intel(R) Xeon(R) CPU E31280 @ 3.50GHz)上运行它。

此外,现在我有大约 800 个未分配的分片中的大约 437 个。我尝试过多次重新启动服务器,但它们仍然没有被分配。

最佳答案

假设 elasticsearch 被配置为使用比您列出的默认内存机器规范更多的东西(除非您的磁盘可能真的很慢?) - 我已经能够用更少的内核和内存做类似的事情,但是使用 ssds 来存储数据没有副本的单个分片索引(此时不是生产数据,我可以丢失)。

您是否尝试将数据索引到没有副本的单个分片索引或 5 个分片索引?不知道为什么单个节点上有 800 个分片,除非您计划将集群扩展到许多机器或有其他要求,例如必须有许多索引。您在该节点上有多少个索引?

此外,您能否将 40 个关键字放在单个过滤的流河中 - 如果所有数据都将进入单个索引,这可能会减少河流的 CPU 使用率并且应该收集相同的数据。

关于twitter - Elastic Search + twitter River - 我需要多少台机器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20348299/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com