gpt4 book ai didi

java - 更新使用 kubernetes 部署的 3 节点 cassandra 集群中的记录时出现问题

转载 作者:行者123 更新时间:2023-12-02 10:05:49 25 4
gpt4 key购买 nike

我有一个 3 节点 Cassandra 集群,复制因子为 2,读写一致性设置为 QUORUM。我们正在使用 Spring 数据 Cassandra。所有基础设施均使用 Kubernetes 部署。

现在,在正常使用情况下,许多记录会插入到 Cassandra 表中。然后我们尝试使用 repo 的 save 方法修改/更新其中一条记录,如下所示:

ChunkMeta tmpRec = chunkMetaRepository.保存(chunkMeta);

执行上述语句后,我们从未看到任何异常或错误。但此更新仍然间歇性失败。也就是说,当我们检查数据库中的记录时,有时它会成功更新,有时会失败。同样在上面的查询中,当我们打印 tmpRec 时,它包含更新的正确值。仍然在数据库中,这些更新的值不会得到反射(reflect)。

我们检查所有节点上的 Cassandra 传输 TRACE 日志,发现我们的查询已记录在那里并正在执行。

现在另一个奇怪的观察结果是,如果我使用单个 Cassandra 节点(在 Kubernetes 中)或者如果我们使用 Ansible 部署上述基础设施(甚至适用于 Ansible 的 3 个节点),那么所有这些都有效。

看起来一些问题专门与 Cassandra 的 Kubernetes 3 节点部署有关。主要看起来像是节点之间的复制导致了这种情况。

Docker 文件的内容:

FROM ubuntu:16.04

RUN apt-get update && apt-get install -y python sudo lsof vim dnsutils net-tools && apt-get clean && \
addgroup testuser && useradd -g testuser testuser && usermod --password testuser testuser;

RUN mkdir -p /opt/test && \
mkdir -p /opt/test/data;

ADD jre8.tar.gz /opt/test/
ADD apache-cassandra-3.11.0-bin.tar.gz /opt/test/

RUN chmod 755 -R /opt/test/jre && \
ln -s /opt/test/jre/bin/java /usr/bin/java && \
mv /opt/test/apache-cassandra* /opt/test/cassandra;

RUN mkdir -p /opt/test/cassandra/logs;

ENV JAVA_HOME /opt/test/jre
RUN export JAVA_HOME

COPY version.txt /opt/test/cassandra/version.txt

WORKDIR /opt/test/cassandra/bin/

RUN mkdir -p /opt/test/data/saved_caches && \
mkdir -p /opt/test/data/commitlog && \
mkdir -p /opt/test/data/hints && \
chown -R testuser:testuser /opt/test/data && \
chown -R testuser:testuser /opt/test;

USER testuser

CMD cp /etc/cassandra/cassandra.yml ../conf/conf.yml && perl -p -e 's/\$\{([^}]+)\}/defined $ENV{$1} ? $ENV{$1} : $&/eg; s/\$\{([^}]+)\}//eg' ../conf/conf.yml > ../conf/cassandra.yaml && rm ../conf/conf.yml && ./cassandra -f

请注意,conf.yml 基本上是 cassandra.yml 文件,具有与 Cassandra 相关的属性。

最佳答案

谢谢大家,很抱歉回复延迟。

我找到了此行为的根本原因。实际上很久以后我发现 Cassandra 依赖于客户端时间戳(对于列时间戳)。客户端指的是不同的 Pod(微服务实例)。就我而言,有 3 个容器在不同的主机上运行。最后,经过大量的努力和研究,我发现在不同主机上运行的这些容器之间存在轻微的时钟漂移。后来我在所有这些主机上安装了 NTP 服务器,这有助于我们在这些节点之间保持时间同步。与 NTP 类似,您还可以安装任何时间 Syn 服务器/实用程序,并摆脱节点时钟漂移问题。

尽管这帮助了我,也将帮助其他人保持节点时钟同步。但在某些极端情况下,我发现根据 NTP 服务器配置的同步时间,在某些情况下,您可能会发现节点间存在 2-3 秒的漂移(在我的情况下,NTP 同步时间为 2 秒)。通过减少节点间的同步时间可以进一步减少。

但最终根本原因只是运行微服务的节点之间的时钟漂移。

关于java - 更新使用 kubernetes 部署的 3 节点 cassandra 集群中的记录时出现问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55342465/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com