gpt4 book ai didi

pyspark - 如果任一集群永远未修复,Cassandra 或 ScyllaDB 是否可以在使用 PySpark 读取时提供不完整的数据?

转载 作者:行者123 更新时间:2023-12-05 00:52:09 30 4
gpt4 key购买 nike

我同时使用 Cassandra 和 ScyllaDB 3 节点集群,并使用 PySpark 读取数据。我想知道是否它们中的任何一个都没有永远修复,如果节点中存在不一致,在读取数据时是否有任何挑战。是否会读取正确的数据,如果是,那么我们为什么需要修复它们?

最佳答案

是的,如果 reapir 未完成,您可能会得到不正确的数据。这还取决于您阅读或写作的一致性。通常在生产系统中,写入使用 (Local_one/Local_quorum) 完成,读取使用 Local_quorum。

如果您使用弱一致性级别进行写入,则修复变得很重要,因为某些节点可能没有发生突变,并且在读取这些节点时可能会被选中。

例如,如果您在表 TABLE1 上以一致性级别 ONE 写入,副本为 3。现在可能发生您的写入被写入 NodeA only 和 NodeBNodeC 可能错过了突变。现在,如果您使用一致性级别 LOCAL_QUORUM 阅读,可能会发生 NodeB 和 'NodeC' 被选中并且它们不会返回写入的数据。

修复是 Cassandra 的一项重要维护任务,应定期持续进行,以保持数据处于健康状态。

关于pyspark - 如果任一集群永远未修复,Cassandra 或 ScyllaDB 是否可以在使用 PySpark 读取时提供不完整的数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70677109/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com