gpt4 book ai didi

Cassandra 3.10 debug.log包含频繁的 "FailureDetector.java:457 - Ignoring interval time of..."

转载 作者:行者123 更新时间:2023-12-04 04:33:23 27 4
gpt4 key购买 nike

我们的Cassandra 3.10集群之一的debug.log文件经常出现类似于“FailureDetector.java:457-忽略间隔时间……”的消息。

即使群集空闲,也会显示该消息。我在这6个节点群集的每个节点(两个数据中心中的每个3个节点)上看到消息的速率约为每秒1个。

有人可以告诉我消息的起因是什么,是否值得关注?

我们还有其他几个支持相同应用程序(不同环境)的小型集群,而我看到此消息的频率则降低了(相隔几天)。

最佳答案

FailureDetector负责确定节点是否被认为是UP或DOWN。

The gossip process tracks state from other nodes both directly (nodes gossiping directly to it) and indirectly (nodes communicated about secondhand, third-hand, and so on). Rather than have a fixed threshold for marking failing nodes, Cassandra uses an accrual detection mechanism to calculate a per-node threshold that takes into account network performance, workload, and historical conditions. During gossip exchanges, every node maintains a sliding window of inter-arrival times of gossip messages from other nodes in the cluster.



Here,您可以找到源代码,它给您日志消息。设置为DEBUG级别是因为它们可能有助于跟踪导致延迟的实际问题,但不能自己指出问题。

换句话说:您的节点会测量发送到其他节点的每条八卦消息的确认等待时间,例如: X nanosec for IP address1, Z nanosec for IP address2, etc.如果 XY高于 MAX_INTERVAL_IN_NANO中所述的预期2秒阈值,它将得到报告。

问题,可能导致此日志消息:
  • 节点上的巨大负载:例如,太多的大分区
  • 高压:例如排序时间段
  • 中的查询过多
  • 网络连接不良

  • 额外的FailureDetector日志记录与此添加在一起:
    通过JMX和调整调试从故障检测器中公开phi值
    和跟踪日志记录( CASSANDRA-9526)

    而且我还发现了这个 Unresolved 问题,可能与您的问题有关:
    当网络是flakey( CASSANDRA-9536)时,故障检测器变得更加敏感

    另外,我发现有关闲聊和故障检测的 this文章非常有用。

    关于Cassandra 3.10 debug.log包含频繁的 "FailureDetector.java:457 - Ignoring interval time of...",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44790873/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com