amazon-web-services - Cassandra 无限期地紧凑运行

amazon-web-services - Cassandra 无限期地紧凑运行 - CPU 使用率高

转载作者：行者123 更新时间：2023-12-02 22:40:33

上下文

我们在 AWS 上托管了 6 个 Cassandra 实例，分为 3 个不同的区域，每个区域 2 个(欧盟西部 2 个，美国西部 2 个，亚太东南部 2 个)。

2 天前，我们将 2 个 EC2 Cassandra 实例从 us-west-1 移至 us-east-1。当我说“移动”时，我的意思是我们停用了它们并在集群上添加了 2 个新实例。

我们运行了 nodetool Repair ，它没有做任何事情，而 nodetool rebuild 则同步了来自欧盟西部数据中心的数据。进行此更改后，我们注意到 Cassandra 集群上的多个实例使用了超过 70% 的 CPU，并且有传入流量。

起初，我们以为是在进行复制，但考虑到我们只有 500MB 的数据，而且它仍在运行，我们对发生的情况感到困惑。

<小时/>

实例硬件:

我们所有的实例都在 m3.medium 上运行，这意味着我们正在:

1 个 CPU，2.5 GHz
3.75 GB RAM
4GB 固态硬盘

我们还为 /var/lib/cassandra 安装了一个 EBS 卷，它实际上是 EBS 上 6 个 SSD 的 RAID0:

EBS 卷 300GB SSD、RAID0

引用号:Amazon Instances Types

<小时/>

软件版本:

Cassandra 版本:2.0.12

<小时/>

想法:

分析数据后，我们认为这是由 Cassandra 数据压缩引起的。

还有另一个关于同一主题的 stackoverflow 问题:Cassandra compaction tasks stuck .

但是，这是通过使用单个 SSD(Azure 高级存储 - 仍处于预览版)并且没有为 Cassandra 配置 RAID0 来解决的，正如作者所说，没有理由解决根本问题(为什么会这样)从等式中删除 RAID0 部分可以解决此问题吗？)。

我们还不太热衷于迁移到本地存储，因为 AWS 定价比我们现在高得多。尽管如此，如果这确实是我们问题的原因，我们会尝试一下。

这听起来像是一个更深层次问题的另一个原因是，我们有数据显示这些 EBS 卷在过去 3 天内写入/读取了大量数据。

自从我们移动实例以来，我们在每个 EBS 卷上每秒获得大约 300-400KB 的写入数据，因此由于我们有 RAID0，每秒该数量的 6 倍 = 1.8-2.4MB/s。这相当于过去 3 天内每个实例写入的数据量约为 450GB。我们对于 READ 操作也有基本相同的值。

我们目前仅对它们进行测试，因此我们获得的唯一流量来自 CI 服务器，并最终来自 Gossip 在实例之间进行的通信。

<小时/>

调试注释

nodetool 状态的输出:

Datacenter: cassandra-eu-west-1-A
=================================
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
--  Address         Load       Tokens  Owns   Host ID                               Rack
UN  xxx.xxx.xxx.xxx 539.5 MB   256     17.3%  12341234-1234-1234-1234-12341234123412340cd7  eu-west-1c
UN  xxx.xxx.xxx.xxx 539.8 MB   256     14.4%  30ff8d00-1ab6-4538-9c67-a49e9ad34672  eu-west-1b
Datacenter: cassandra-ap-southeast-1-A
======================================
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
--  Address         Load       Tokens  Owns   Host ID                               Rack
UN  xxx.xxx.xxx.xxx 585.13 MB  256     16.9%  a0c45f3f-8479-4046-b3c0-b2dd19f07b87  ap-southeast-1a
UN  xxx.xxx.xxx.xxx 588.66 MB  256     17.8%  b91c5863-e1e1-4cb6-b9c1-0f24a33b4baf  ap-southeast-1b
Datacenter: cassandra-us-east-1-A
=================================
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
--  Address         Load       Tokens  Owns   Host ID                               Rack
UN  xxx.xxx.xxx.xxx 545.56 MB  256     15.2%  ab049390-f5a1-49a9-bb58-b8402b0d99af  us-east-1d
UN  xxx.xxx.xxx.xxx 545.53 MB  256     18.3%  39c698ea-2793-4aa0-a28d-c286969febc4  us-east-1e

nodetoolcompactionstats的输出:

pending tasks: 64
          compaction type        keyspace           table       completed           total      unit  progress
               Compaction         staging    stats_hourly       418858165      1295820033     bytes    32.32%
Active compaction remaining time :   0h00m52s

在不健康的实例上运行dstat:

dstat on unhealthy instance

图表形式的压实历史记录(从 16 号开始平均每小时 300 次):

Compaction history graph

EBS 卷使用情况:

EBS Volume 1

EBS Volume 2

运行 df -h:

Filesystem      Size  Used Avail Use% Mounted on
/dev/xvda1       33G   11G   21G  34% /
none            4.0K     0  4.0K   0% /sys/fs/cgroup
udev            1.9G   12K  1.9G   1% /dev
tmpfs           377M  424K  377M   1% /run
none            5.0M     0  5.0M   0% /run/lock
none            1.9G  4.0K  1.9G   1% /run/shm
none            100M     0  100M   0% /run/user
/dev/xvdb       3.9G  8.1M  3.7G   1% /mnt
/dev/md0        300G  2.5G  298G   1% /var/lib/cassandra

运行nodetool tpstats:

Pool Name                    Active   Pending      Completed   Blocked  All time blocked
MutationStage                     0         0        3191689         0                 0
ReadStage                         0         0         574633         0                 0
RequestResponseStage              0         0        2698972         0                 0
ReadRepairStage                   0         0           2721         0                 0
ReplicateOnWriteStage             0         0              0         0                 0
MiscStage                         0         0          62601         0                 0
HintedHandoff                     0         1            443         0                 0
FlushWriter                       0         0          88811         0                 0
MemoryMeter                       0         0           1472         0                 0
GossipStage                       0         0         979483         0                 0
CacheCleanupExecutor              0         0              0         0                 0
InternalResponseStage             0         0             25         0                 0
CompactionExecutor                1        39          99881         0                 0
ValidationExecutor                0         0          62599         0                 0
MigrationStage                    0         0             40         0                 0
commitlog_archiver                0         0              0         0                 0
AntiEntropyStage                  0         0         149095         0                 0
PendingRangeCalculator            0         0             23         0                 0
MemtablePostFlusher               0         0         173847         0                 0

Message type           Dropped
READ                         0
RANGE_SLICE                  0
_TRACE                       0
MUTATION                     0
COUNTER_MUTATION             0
BINARY                       0
REQUEST_RESPONSE             0
PAGED_RANGE                  0
READ_REPAIR                  0

运行 iptraf，按字节排序:

iptraf sorted by bytes

最佳答案

我们尝试了其他答案和评论中的一些操作，但最终解决此问题的是终止 2 个新实例。

当我们尝试向集群添加新实例时，一切进展顺利，负载现已恢复正常。

我的直觉是，nodetool重建或nodetool修复可能已经开始对我们的两个节点进行意外处理。也有可能这些特定实例有错误，但我还没有找到任何证据。

以下是回收 us-east 实例后 eu-west 实例上的 CPU 使用情况:

CPU Usage

关于amazon-web-services - Cassandra 无限期地紧凑运行 - CPU 使用率高，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29144280/

文章推荐：蓝牙低功耗规范心率配置文件与心率服务

文章推荐： java - Micrometer (micrometerClock) 中的错误处理条件

文章推荐： angularjs - Angular Material 导航栏设置默认事件项目

amazon-cloudsearch - Amazon CloudSearch 和 Amazon Kendra
我想知道 Amazon CloudSearch 和 Kendra 之间的主要区别是什么？为什么同一家公司的产品有两种不同的工具相互竞争？两者看起来都一样，我不确定功能有何不同。它是如何相互区分的。 A
amazon-simpledb - Amazon SimpleDB 与 Amazon RDS
我在一家小型电子商务网站工作，我们希望迁移到所有 Amazon 托管服务，但我不确定 RDS 和 SimpleDB 的确切区别。 RDS可以用MySQL，SimpleDB不行吗？最佳答案 RDS 基
amazon-ec2 - Amazon EC2 与 Amazon EMR
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 7年前关闭。 Improve t
amazon-ec2 - Amazon ELB 如何将请求分发到不同实例类型的 Amazon EC2 实例？
任何人都知道如何 ELB如果我注册多个 EC2 将分发请求不同大小的实例。说一 m1.medium , 一 m1.large和一个 m1.xlarge . 如果我注册EC2会不会不一样相同大小的实例？
amazon-web-services - 用于事件驱动交互的 Amazon AppFlow 与 Amazon EventBridge
Amazon EventBridge 使开发人员能够将第 3 方事件驱动的应用程序与 Amazon 服务连接起来。 Amazon AppFlow 还提供与第 3 方应用程序的事件驱动集成。对于事件驱
amazon-web-services - Amazon Pinpoint 与 Amazon SES/SMS
我想通过电子邮件或短信向特定用户(只有一个)发送验证码。我已经通过 Amazon SES 成功地做到了。但我没有尝试通过Amazon SMS然而。我发现自己陷入了调查的兔子洞AWS Pinpoint
amazon-web-services - Amazon S3 和 Amazon EBS 之间的主要区别是什么
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve thi
amazon-web-services - Amazon Glacier 可以镜像 Amazon S3 存储桶吗？
我想使用 Amazon Glacier 镜像 S3 存储桶。 Glacier FAQ状态: Amazon S3 now provides a new storage option that enabl
amazon-s3 - 将 Amazon S3 与 Amazon RDS 结合使用
我正在尝试在 Amazon RDS 上托管数据库，而数据库将存储信息的实际内容(视频)将托管在 Amazon S3 上。我对这个过程有一些疑问，希望有人能帮助我。 Amazon RDS 上托管的数
amazon-web-services - Amazon ECS 和 Amazon EC2 有什么区别？
我刚刚开始使用 AWS EC2。我知道 EC2 就像一台远程计算机，我几乎可以在其中完成我想做的所有事情。后来我知道了ECS。我知道它使用 Docker，但我对这两者之间的关系感到困惑。 ECS 只是
amazon-web-services - Amazon SNS 和 Amazon SQS 有什么区别？
什么时候我会使用 SNS 和 SQS，为什么它们总是耦合在一起？最佳答案 SNS是一个分布式发布-订阅系统。当发布者将消息发送到 SNS 时，消息就会被推送给订阅者。 SQS是分布式排队系统。消息不
amazon-web-services - Amazon S3 和 Amazon EC2 实例有什么区别？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎不是关于 a specific programming problem, a software
amazon-s3 - 是否可以在 Amazon S3 用户之间共享 Amazon S3 存储桶？
已关闭。这个问题是 off-topic 。目前不接受答案。想要改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。已关闭10 年前。 Improve th
amazon-ec2 - 当我有多个服务器时，我应该在 Amazon EC2 中使用 Amazon VPC
我计划在 amazon EC2 中拥有一个多服务器架构，其中服务器需要相互通信。这些服务器需要位于不同的亚马逊地区(不同的数据中心)。我可以只使用亚马逊ec2的内部网络吗？有哪些安全问题？我是否应该在
amazon-web-services - 允许从 Amazon EC2 实例到 Amazon S3 存储桶的跨账户访问
我在帐户 B 中有 S3 存储桶“跨存储桶”。现在我希望帐户 A 中存在的 EC2 访问帐户 B 中的此存储桶“跨存储桶”。我需要使用 IAM 角色来实现此目的，因为我们不允许创建用户。我已使用以
amazon-s3 - 单页应用程序 + Amazon S3 + Amazon CloudFront + Prerender.io - 如何设置？
我有使用 Backbone.js 构建的单页应用程序。我在 Amazon S3 上托管应用程序(应用程序仅包含静态文件)。我使用 CloudFront 作为 Bucket CDN。应用程序通过
amazon-web-services - 您可以连接到 Amazon 外部的 Amazon ElastiСache Redis 吗？
我可以连接到 ElastiCache来自 EC2 实例的 VPC 中的 Redis 实例。但我想知道是否有办法连接到 Amazon EC2 实例之外的 ElastiCache Redis 节点，例如
amazon-ec2 - Amazon EC2微型实例无响应
我有几个微实例可以正常工作数周。两者都在运行WordPress博客。在过去的24小时内，其中一个已经停止。即使重新启动，我也无法插入。另一个实例工作正常。 ssh: connect to host e
amazon-redshift - Amazon Redshift中的generate_series函数
我尝试了以下方法: SELECT * FROM generate_series(2,4); generate_series ----------------- 2
amazon-s3 - Amazon S3将目录复制到另一个目录
如何使用PHP API将包含子文件夹和文件的文件夹复制/复制到S3存储桶中的另一个目录中？ $s3->copy_object仅复制文件夹，而不复制其中的文件和子文件夹。我是否必须使用$s3->lis

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

amazon-web-services - Cassandra 无限期地紧凑运行 - CPU 使用率高