- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
上下文
我们在 AWS 上托管了 6 个 Cassandra 实例,分为 3 个不同的区域,每个区域 2 个(欧盟西部 2 个,美国西部 2 个,亚太东南部 2 个)。
2 天前,我们将 2 个 EC2 Cassandra 实例从 us-west-1 移至 us-east-1。当我说“移动”时,我的意思是我们停用了它们并在集群上添加了 2 个新实例。
我们运行了 nodetool Repair
,它没有做任何事情,而 nodetool rebuild
则同步了来自欧盟西部数据中心的数据。进行此更改后,我们注意到 Cassandra 集群上的多个实例使用了超过 70% 的 CPU,并且有传入流量。
起初,我们以为是在进行复制,但考虑到我们只有 500MB 的数据,而且它仍在运行,我们对发生的情况感到困惑。
<小时/>实例硬件:
我们所有的实例都在 m3.medium 上运行,这意味着我们正在:
我们还为 /var/lib/cassandra
安装了一个 EBS 卷,它实际上是 EBS 上 6 个 SSD 的 RAID0:
软件版本:
Cassandra 版本:2.0.12
<小时/>想法:
分析数据后,我们认为这是由 Cassandra 数据压缩引起的。
还有另一个关于同一主题的 stackoverflow 问题:Cassandra compaction tasks stuck .
但是,这是通过使用单个 SSD(Azure 高级存储 - 仍处于预览版)并且没有为 Cassandra 配置 RAID0 来解决的,正如作者所说,没有理由解决根本问题(为什么会这样)从等式中删除 RAID0 部分可以解决此问题吗?)。
我们还不太热衷于迁移到本地存储,因为 AWS 定价比我们现在高得多。尽管如此,如果这确实是我们问题的原因,我们会尝试一下。
这听起来像是一个更深层次问题的另一个原因是,我们有数据显示这些 EBS 卷在过去 3 天内写入/读取了大量数据。
自从我们移动实例以来,我们在每个 EBS 卷上每秒获得大约 300-400KB 的写入数据,因此由于我们有 RAID0,每秒该数量的 6 倍 = 1.8-2.4MB/s。这相当于过去 3 天内每个实例写入的数据量约为 450GB。我们对于 READ 操作也有基本相同的值。
我们目前仅对它们进行测试,因此我们获得的唯一流量来自 CI 服务器,并最终来自 Gossip 在实例之间进行的通信。
<小时/>调试注释
nodetool 状态
的输出:
Datacenter: cassandra-eu-west-1-A
=================================
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
-- Address Load Tokens Owns Host ID Rack
UN xxx.xxx.xxx.xxx 539.5 MB 256 17.3% 12341234-1234-1234-1234-12341234123412340cd7 eu-west-1c
UN xxx.xxx.xxx.xxx 539.8 MB 256 14.4% 30ff8d00-1ab6-4538-9c67-a49e9ad34672 eu-west-1b
Datacenter: cassandra-ap-southeast-1-A
======================================
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
-- Address Load Tokens Owns Host ID Rack
UN xxx.xxx.xxx.xxx 585.13 MB 256 16.9% a0c45f3f-8479-4046-b3c0-b2dd19f07b87 ap-southeast-1a
UN xxx.xxx.xxx.xxx 588.66 MB 256 17.8% b91c5863-e1e1-4cb6-b9c1-0f24a33b4baf ap-southeast-1b
Datacenter: cassandra-us-east-1-A
=================================
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
-- Address Load Tokens Owns Host ID Rack
UN xxx.xxx.xxx.xxx 545.56 MB 256 15.2% ab049390-f5a1-49a9-bb58-b8402b0d99af us-east-1d
UN xxx.xxx.xxx.xxx 545.53 MB 256 18.3% 39c698ea-2793-4aa0-a28d-c286969febc4 us-east-1e
nodetoolcompactionstats
的输出:
pending tasks: 64
compaction type keyspace table completed total unit progress
Compaction staging stats_hourly 418858165 1295820033 bytes 32.32%
Active compaction remaining time : 0h00m52s
在不健康的实例上运行dstat
:
图表形式的压实历史记录(从 16 号开始平均每小时 300 次):
EBS 卷使用情况:
运行 df -h:
Filesystem Size Used Avail Use% Mounted on
/dev/xvda1 33G 11G 21G 34% /
none 4.0K 0 4.0K 0% /sys/fs/cgroup
udev 1.9G 12K 1.9G 1% /dev
tmpfs 377M 424K 377M 1% /run
none 5.0M 0 5.0M 0% /run/lock
none 1.9G 4.0K 1.9G 1% /run/shm
none 100M 0 100M 0% /run/user
/dev/xvdb 3.9G 8.1M 3.7G 1% /mnt
/dev/md0 300G 2.5G 298G 1% /var/lib/cassandra
运行nodetool tpstats
:
Pool Name Active Pending Completed Blocked All time blocked
MutationStage 0 0 3191689 0 0
ReadStage 0 0 574633 0 0
RequestResponseStage 0 0 2698972 0 0
ReadRepairStage 0 0 2721 0 0
ReplicateOnWriteStage 0 0 0 0 0
MiscStage 0 0 62601 0 0
HintedHandoff 0 1 443 0 0
FlushWriter 0 0 88811 0 0
MemoryMeter 0 0 1472 0 0
GossipStage 0 0 979483 0 0
CacheCleanupExecutor 0 0 0 0 0
InternalResponseStage 0 0 25 0 0
CompactionExecutor 1 39 99881 0 0
ValidationExecutor 0 0 62599 0 0
MigrationStage 0 0 40 0 0
commitlog_archiver 0 0 0 0 0
AntiEntropyStage 0 0 149095 0 0
PendingRangeCalculator 0 0 23 0 0
MemtablePostFlusher 0 0 173847 0 0
Message type Dropped
READ 0
RANGE_SLICE 0
_TRACE 0
MUTATION 0
COUNTER_MUTATION 0
BINARY 0
REQUEST_RESPONSE 0
PAGED_RANGE 0
READ_REPAIR 0
运行 iptraf,按字节排序:
最佳答案
我们尝试了其他答案和评论中的一些操作,但最终解决此问题的是终止 2 个新实例。
当我们尝试向集群添加新实例时,一切进展顺利,负载现已恢复正常。
我的直觉是,nodetool重建
或nodetool修复
可能已经开始对我们的两个节点进行意外处理。也有可能这些特定实例有错误,但我还没有找到任何证据。
以下是回收 us-east 实例后 eu-west 实例上的 CPU 使用情况:
关于amazon-web-services - Cassandra 无限期地紧凑运行 - CPU 使用率高,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29144280/
我想知道 Amazon CloudSearch 和 Kendra 之间的主要区别是什么?为什么同一家公司的产品有两种不同的工具相互竞争?两者看起来都一样,我不确定功能有何不同。它是如何相互区分的。 A
我在一家小型电子商务网站工作,我们希望迁移到所有 Amazon 托管服务,但我不确定 RDS 和 SimpleDB 的确切区别。 RDS可以用MySQL,SimpleDB不行吗? 最佳答案 RDS 基
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 7年前关闭。 Improve t
任何人都知道如何 ELB如果我注册多个 EC2 将分发请求不同大小的实例。说一 m1.medium , 一 m1.large和一个 m1.xlarge . 如果我注册EC2会不会不一样相同大小的实例?
Amazon EventBridge 使开发人员能够将第 3 方事件驱动的应用程序与 Amazon 服务连接起来。 Amazon AppFlow 还提供与第 3 方应用程序的事件驱动集成。 对于事件驱
我想通过电子邮件或短信向特定用户(只有一个)发送验证码。我已经通过 Amazon SES 成功地做到了。但我没有尝试通过Amazon SMS然而。我发现自己陷入了调查的兔子洞AWS Pinpoint
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve thi
我想使用 Amazon Glacier 镜像 S3 存储桶。 Glacier FAQ状态: Amazon S3 now provides a new storage option that enabl
我正在尝试在 Amazon RDS 上托管数据库,而数据库将存储信息的实际内容(视频)将托管在 Amazon S3 上。我对这个过程有一些疑问,希望有人能帮助我。 Amazon RDS 上托管的数
我刚刚开始使用 AWS EC2。我知道 EC2 就像一台远程计算机,我几乎可以在其中完成我想做的所有事情。后来我知道了ECS。我知道它使用 Docker,但我对这两者之间的关系感到困惑。 ECS 只是
什么时候我会使用 SNS 和 SQS,为什么它们总是耦合在一起? 最佳答案 SNS是一个分布式发布-订阅系统。当发布者将消息发送到 SNS 时,消息就会被推送给订阅者。 SQS是分布式排队系统。消息不
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 这个问题似乎不是关于 a specific programming problem, a software
已关闭。这个问题是 off-topic 。目前不接受答案。 想要改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 已关闭10 年前。 Improve th
我计划在 amazon EC2 中拥有一个多服务器架构,其中服务器需要相互通信。这些服务器需要位于不同的亚马逊地区(不同的数据中心)。我可以只使用亚马逊ec2的内部网络吗?有哪些安全问题?我是否应该在
我在帐户 B 中有 S3 存储桶“跨存储桶”。现在我希望帐户 A 中存在的 EC2 访问帐户 B 中的此存储桶“跨存储桶”。 我需要使用 IAM 角色来实现此目的,因为我们不允许创建用户。 我已使用以
我有使用 Backbone.js 构建的单页应用程序。 我在 Amazon S3 上托管应用程序(应用程序仅包含静态文件)。 我使用 CloudFront 作为 Bucket CDN。 应用程序通过
我可以连接到 ElastiCache来自 EC2 实例 的 VPC 中的 Redis 实例。但我想知道是否有办法连接到 Amazon EC2 实例之外的 ElastiCache Redis 节点,例如
我有几个微实例可以正常工作数周。两者都在运行WordPress博客。在过去的24小时内,其中一个已经停止。即使重新启动,我也无法插入。另一个实例工作正常。 ssh: connect to host e
我尝试了以下方法: SELECT * FROM generate_series(2,4); generate_series ----------------- 2
如何使用PHP API将包含子文件夹和文件的文件夹复制/复制到S3存储桶中的另一个目录中? $s3->copy_object仅复制文件夹,而不复制其中的文件和子文件夹。 我是否必须使用$s3->lis
我是一名优秀的程序员,十分优秀!