Elasticsearch - 一般架构和 Elastic Cloud 问题-6ren

Elasticsearch - 一般架构和 Elastic Cloud 问题

转载作者：行者123 更新时间：2023-12-03 01:37:45

25

4

背景

我们现在正在使用 Elasticsearch 设计新系统的架构，并且我们计划使用 Elastic Cloud，这是基于对比他们的服务与 AWS 的服务以及在 EC2 实例上自托管的评论。在我们设计系统时，我试图从我的团队 6 个月前部署在 Elastic Cloud 上的一个小型测试项目中学习。虽然我花了很多时间阅读 Elasticsearch Docs , Elasticsearch: The Definitive Guide , 和 Elastic Cloud's Docs ，这里有一些概念我还是不明白。

我们的测试项目的问题

我们的测试项目使用默认的 5 个主分片和每个主分片 1 个副本分片。它是使用 Elastic Cloud 上的默认部署选项配置的，具有单个节点，当前具有 2GB 内存。因为只有一个节点，并且副本分片从未分配到与其主分片(reason 2)相同的节点，所以没有一个副本被分配。此外，该项目使用 time-based data ，并且每天为每个账户创建一个索引，从而每天产生大约 10 个索引(或 100 个分片)，随着时间的推移，众所周知的 Kagillion Shards .这个系统本来只打算一次有几个月的数据，所以解决方案是在这个部署的内存用完时手动删除旧数据。

新系统

我们的新系统旨在拥有 5 年的基于时间的数据，预计其大小将增长到 250 GB。当前实现对基于时间的数据使用单个索引，每个主分片有 6 个主分片和 1 个副本。这个决定是基于单个分片的最大目标是 30GB 的阅读而做出的。

问题

我们的旧系统有一个节点有太多索引(超过 100 个)和太多分片(超过 1000 个)，而我们的新系统似乎设计得太少(一个索引用于 5 年以上的数据)。根据time-based data，这似乎是一个更好的索引策略。建议是每周或每月创建一个索引？话虽如此，根据 another answer on SO每个节点的最佳索引数是 1，那么如果我们只在一个节点上运行，那么首先为基于时间的数据创建多个索引有什么用呢？

如何将节点添加到 Elastic Cloud 中的 ES 部署？目前测试项目中的所有副本节点都未分配，因为部署只有一个节点。有一个 slider 可让您轻松选择部署中每个节点的内存(介于 1GB 和 250B 之间)，但是我认为无法添加多个节点，这令人困惑，因为它似乎是 Elasticsearch 的基本功能。

我们测试项目的节点已经重启了几次，总是在节点上有很多旧数据的时候，因此内存压力很大。解决方案是删除旧数据(因为测试项目一次只需要几个月的数据)，但似乎节点在重新启动时并没有丢失数据。为什么会这样？

我们的测试项目没有拍摄快照，快照应该每 30 分钟在 Elastic Cloud 上自动发生。我已经询问了他们对此的支持，但只是想知道是否有人知道可能导致此问题的原因以及如何解决？

最佳答案

Our test project uses the default of 5 primary shards and 1 replica shard per primary. It was configured using the default deployment options on Elastic Cloud with a single one node

显然，在单个节点上，您不能拥有副本。因此，您的索引应该已经配置了 0 个副本，并且您可以动态地执行它以使您的集群恢复绿色( PUT index/_settings {"index.number_of_replicas": 0} )，就这么简单。

Also, this project uses time-based data, and is creating one index per account per day, resulting in about 10 indexes per day (or 100 shards)

我无法判断每天 50 个新的主分片(10 个索引)是否合理，因为您没有提供有关测试项目中数据量的任何信息。但可能太多了。

It seems a better indexing strategy according to the time-based data recommendations would be to create one index per week or month?

在一个索引中拥有五年的数据是完全可能的，它并不真正取决于数据的年龄，而是取决于它的增长量。您提到 250GB 并且您知道分片不应增长超过 30GB(这又取决于您的硬件规范，稍后会详细介绍)，但是由于该索引只有 6 个分片，这意味着每个分片分片将增长超过 40GB(根据 this 可以)，但为了安全起见，您可能应该增加到 8-9 个分片，或者将数据拆分为年/月索引。

每个分片 30GB 的限制也取决于你的节点有多少堆。如果您有 2GB 堆的节点，那么拥有 30GB 分片显然太大了。由于您在 ES Cloud 上并且计划拥有 250GB 的数据，因此您必须选择 16GB 堆 + 384GB 存储(或更大)的节点容量。因此，对于 16GB 堆，拥有 30GB 分片是合理的，但我认为您需要多个节点。您可以使用 GET _cat/nodes?v 验证您有多少个节点.

That being said, according to another answer on SO the optimal number of indexes per node is 1...

克里斯所说的是理论/理想环境，这在现实中几乎不可能/不建议/不希望这样做。您确实希望在索引中有多个分片，原因是当您的数据增长时，您希望能够扩展到多个节点，这就是 ES 的重点，否则最好嵌入 Lucene直接在您的项目中的库。

..., so what is the utility in creating multiple indices for time-based data in the first place if we're only running on one node?

首先使用 GET _cat/nodes?v 检查集群中有多少节点，但很明显，如果您被分配一个节点来将 250GB 的数据拆分为 6-8 个分片，那么单个节点确实并不理想。

How does one add a node to an ES deployment in Elastic Cloud?

现在，你不能。然而，在上一次 Elastic{ON} session 上， Elastic announced可以选择要设置的节点数量或部署类型(热/温等)。

Currently all of the replica nodes in the test project are unassigned, because the deployment only has one node.

在测试项目中你真的不需要副本，对吧？

The solution has been to delete old data (as the test project was only meant to have several months of data at a time), but it appears the node didn't lose data when it restarted. Why would this be?

你是怎么删除数据的？在您删除数据和节点重新启动之前，您是否见证了数据确实消失了？

Our test project has taken no snapshots, which are supposed to happen automatically on Elastic Cloud every 30 minutes.

这很奇怪，因为在 ES 云上，您的集群通常每 30 分钟拍摄一次快照。您在 Deployments > cluster-id > Elasticsearch > Snapshots 下看到了什么？ ES Cloud 支持对此有何评论？运行 GET _cat/repositories?v得到什么和 GET _cat/snapshots/found-snapshots?v ? (用结果更新您的问题)

关于Elasticsearch - 一般架构和 Elastic Cloud 问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51025543/

25

4

0

文章推荐： azure - 部署槽在 azure 的 ASE 中不起作用

文章推荐： bash - Hashicorp 使用 Azure 保管库自动解封

amazon-elastic-beanstalk - Elastic Beanstalk npm失败
我正在尝试将我的应用程序上载到Elastic Beanstalk，但是在节点预gyp安装--fallback-to-build上，npm安装失败。我尝试了各种版本的节点，但无济于事。似乎正在尝试获取一
amazon-elastic-beanstalk - 如何为环境创建 Elastic beanstalk 配置模板
每当我在 Elastic Beanstalk 中创建新环境时，我都会手动配置自定义 AMI ID、SNS 通知等，但我想自动完成，即，将设置(自定义 AMI ID、SNS、 key 对等)保存到一个配
amazon-elastic-beanstalk - 将文件从 Elastic beanstalk 复制到本地机器
我已使用以下方法连接到 Elastic Beanstalk: eb ssh XXXXXX --profile=xx 现在我想将一个文件复制到我的本地机器上，我该怎么做？最佳答案找出与 scp 一起
amazon-elastic-beanstalk - 手动部署与 Amazon Elastic Beanstalk
对于典型的 Java Web 应用程序，使用 Elastic Beanstalk 相对于手动创建 EC2 实例、设置 tomcat 服务器和部署等有哪些优势？负载平衡、监控和自动缩放是唯一的优势吗？
elasticsearch - Elastic Search:Elastic Search 7.1中扁平化数据类型的替代方法
我有两个Elastic Search版本，一个是 7.3 ，另一个是 7.1 。我正在将flattened数据类型用于 Elastic Search 7.3 ，并且我也想在 Elastic Searc
java - 如何使用 Spring-data-elastic 查询 Elastic
我是 Elastic 和 spring-data-elastic 的新手。我一直在此处和网络的其他区域进行搜索，但到目前为止尚未找到我的问题的答案。我希望 SO 能够提供帮助。我正在为我的Users
amazon-elastic-beanstalk - Elastic Beanstalk 环境不在 .ebextensions 文件夹中执行命令
我有一个运行 PHP 的弹性 beanstalk 环境。在我的项目中，我有一个 .ebextensions 文件夹和一个名为“15-memorymonitor.config”的文件，其中包含以下内容；
amazon-elastic-beanstalk - Elastic Beanstalk 不会自动从 ECR 更新镜像
我有 “更新”:Dockerrun.aws.json 中的“真” 当我更新 ECR 中的图像时，它应该自动更新 EC2 iontance 中的图像和容器。但是当我在推送新图像后通过 ssh 进入实例
amazon-elastic-beanstalk - 从 CloudFormation 模板扩展 Elastic Beanstalk
我有一个定义 Elastic Beanstalk 应用程序的 CloudFormation 模板。我想扩展这个应用程序，即我希望端口 80 上的监听器重定向到 HTTPS。 AWS::Elastic
amazon-elastic-beanstalk - Elastic Beanstalk 在 EbExtensionPostBuild 停止
我在使用自定义 .ebextensions 文件部署 EB 实例时遇到问题。这是该文件中的相关部分: container_commands: 01_migrate: command: 'p
amazon-elastic-beanstalk - 在 Elastic beanstalk 中将 ELB 设置为自动缩放健康检查类型
我已经使用带负载均衡器的 Elastic Beanstalk 创建了一个环境，并在各自的配置中分配了所有健康检查值我也为ELB设置了应用健康检查url 但是当我检查自动缩放组配置时，健康检查类型是
elasticsearch - 不使用 Elastic APM 将 OpenTelemetry 导出到 Elastic Search
我想使用 OpenTelemetry 将跟踪/指标数据导出到 Elastic Search，但我更愿意避免使用 Elastic APM。是否可以？opentelemetry 贡献 repo显然暗示这是
amazon-elastic-beanstalk - Elastic Beanstalk 找不到 server.js 文件
我正在尝试部署我的角申请通过GitHub Actions到 Elastic Beanstalk 。我正在使用这个 GitHub actions用于部署到 ELB。我的问题是，部署失败，因为 ELB
amazon-elastic-beanstalk - 如何通过 Elastic Beanstalk 部署(包括数据库补丁)避免停机？
我已阅读有关 Deploying Versions with Zero Downtime 的 AWS 文档，又名 CNAME 交换。如 yegor256在 this answer 中有解释: The
elasticsearch - 使用来自具有不同包结构的 2 个不同应用程序的相同 Elastic Index 来存储数据(HibernateSearch + Elastic)
我们在我们的一个应用程序服务器上安装了 Elastic 5.6.10 和 HibernateSearch ORM 5.11.4.Final，现在我们计划通过我们的一个微服务(spring boot，但
amazon-elastic-beanstalk - 在 AWS Elastic Beanstalk 中使用 SSM 参数存储
我正在使用 AWS Elastic beanstalk 并希望为不同的环境配置不同的 ENV 变量。我发现的唯一方法是使用 ebextensions，但如果我将同一个数据包部署到多个环境，则无法覆盖在
amazon-elastic-beanstalk - aws Elastic beanstalk 中同一环境中的 Nodejs 和 php
我有一个应用程序，其中包含 nodejs 和 php 代码。 nodejs 用于运行应用程序所需的几个脚本。我如何使用 aws Elastic beanstalk 部署此类应用程序？最佳答案有两种
amazon-elastic-transcoder - 使用 AWS Elastic 转码器将 MP4 转换为 HLS。
我打算将 MP4(1920x1080，比特率可能因 mp4 而异)转换为 HLS(不同类型的分辨率)。不同类型的分辨率，我正在寻找 1080p = 1920x1080 720p = 1280x720
amazon-elastic-beanstalk - AWS Elastic Beanstalk 通知 - 环境运行状况已从“正常”转变为“警告”
我不断收到以下消息。但是在我的 nginx 日志中没有任何内容表明返回的请求状态为 5xx。此外，应用程序似乎按预期工作。我可能会得到这些的任何指示？留言: Environment health h
amazon-elastic-beanstalk - Asp.net 核心 + Aws Elastic Beanstalk + Bitbucket 管道
我们如何使用 bitbucket 管道更新 aws elastic beanstalk 上的 asp.net 核心网站？最佳答案我知道这是迟到的答案，但几天前我做了同样的事情，所以这里是我是如何做

首页

博学

6Ren·AI

商城

Elasticsearch - 一般架构和 Elastic Cloud 问题