gpt4 book ai didi

java - 为什么我的 Cassandra 节点卡在 MutationStage 增加的情况下?

转载 作者:搜寻专家 更新时间:2023-10-30 19:47:16 28 4
gpt4 key购买 nike

我正在使用 Cassandra 存储图片。我们目前正在从旧系统中大规模迁移图片。一段时间内一切正常,但最终我们会在保存时收到 TimedOutException,我认为这是因为工作队列已满。

但是,在等待(几个小时)完成后,情况仍然相同(停止迁移后无法自行恢复)

似乎只有1个节点有问题,其tpstats命令显示如下数据

Cassandra tpstats

即使我们在数小时前停止了插入操作,但待处理的 MutationStage 操作仍在继续增加。

这到底是什么意思?什么是 MutationStage?

我可以检查什么来了解为什么它在这么长时间后还没有稳定下来?环中的所有其他服务器都处于 0 待处理操作。

我们尝试的任何新插入都会抛出 TimedOutException... 异常。

这是戒指信息,以防有用

enter image description here
(有问题的节点是第一个)

编辑:日志中的最后几行如下

INFO [OptionalTasks:1] 2013-02-05 10:12:59,140 MeteredFlusher.java (line 62) flushing high-traffic column family CFS(Keyspace='pics_persistent', ColumnFamily='master') (estimated 92972117 bytes)  
INFO [OptionalTasks:1] 2013-02-05 10:12:59,141 ColumnFamilyStore.java (line 643) Enqueuing flush of Memtable-master@916497516(74377694/92972117 serialized/live bytes, 141 ops)
INFO [OptionalTasks:1] 2013-02-05 10:14:49,205 MeteredFlusher.java (line 62) flushing high-traffic column family CFS(Keyspace='pics_persistent', ColumnFamily='master') (estimated 80689206 bytes)
INFO [OptionalTasks:1] 2013-02-05 10:14:49,207 ColumnFamilyStore.java (line 643) Enqueuing flush of Memtable-master@800272493(64551365/80689206 serialized/live bytes, 113 ops)
WARN [MemoryMeter:1] 2013-02-05 10:16:10,662 Memtable.java (line 197) setting live ratio to minimum of 1.0 instead of 0.0015255633589225548
INFO [MemoryMeter:1] 2013-02-05 10:16:10,663 Memtable.java (line 213) CFS(Keyspace='pics_persistent', ColumnFamily='master') liveRatio is 1.0 (just-counted was 1.0). calculation took 38ms for 86 columns
INFO [OptionalTasks:1] 2013-02-05 10:16:33,267 MeteredFlusher.java (line 62) flushing high-traffic column family CFS(Keyspace='pics_persistent', ColumnFamily='master') (estimated 71029403 bytes)
INFO [OptionalTasks:1] 2013-02-05 10:16:33,269 ColumnFamilyStore.java (line 643) Enqueuing flush of Memtable-master@143498560(56823523/71029403 serialized/live bytes, 108 ops)
INFO [ScheduledTasks:1] 2013-02-05 11:36:27,798 GCInspector.java (line 122) GC for ParNew: 243 ms for 1 collections, 1917768456 used; max is 3107979264
INFO [ScheduledTasks:1] 2013-02-05 13:00:54,090 GCInspector.java (line 122) GC for ParNew: 327 ms for 1 collections, 1966976760 used; max is 3107979264

最佳答案

我猜你只是让你的一个节点重载写入 - 即你写入的速度超过了它能够消化的速度。如果您的写入量很大,这很容易。

即使在您停止写入集群后,MutationStage 仍在增加,因为其他节点仍在处理排队的变更请求并将副本发送到这个过载的节点

我不知道为什么其中一个节点会过载,因为可能有几个原因:

  • 节点比其他节点慢(不同的硬件或不同的配置)
  • 集群未正确平衡(但是,nodetool ring 输出的开头表明情况并非如此)
  • 您将所有写入都定向到这个特定节点,而不是将它们平均分配到所有节点,例如通过循环
  • 您为太小的总堆空间配置了太大的总 memtables 大小限制/或缓存大小,并且您的节点正在与 GC 作斗争,而恰好这个节点是第一个陷入 GC 死亡螺旋的节点

关于java - 为什么我的 Cassandra 节点卡在 MutationStage 增加的情况下?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14714413/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com