- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在 clickhouse 文档中,提到了 Yandex.Metrica,它实现了双层分片。
“或者,正如我们在 Yandex.Metrica 中所做的那样,您可以设置双层分片:将整个集群划分为“层”,其中一个层可能由多个分片组成。单个客户端的数据位于在单个层上,但可以根据需要将分片添加到层中,并且数据在其中随机分布。”
是否有这个分片方案的详细实现,记录在某个地方。
最佳答案
从逻辑上讲,Yandex.Metrica 只有一个高基数 ID 列用作主分片键。
默认从表中选择 Distributed引擎从每个分片的一个副本请求部分结果。如果您有数百台或更多服务器,查询所有分片(可能是所有服务器的 1/2 或 1/3)需要大量网络通信,这可能会比实际查询执行引入更多延迟。这种行为的原因是 ClickHouse 允许直接将数据写入分片(绕过分布式引擎及其配置的分片键)并且不强制应用程序遵守分布式表的分片键(它可以选择不同的方式来传播数据更均匀或任何其他原因)。
因此,双层分片的想法是将大型集群拆分为较小的子集群(每个子集群 10-20 台服务器),并使大多数 SELECT 查询通过针对子集群配置的分布式表,从而减少必要的网络通信并降低可能掉队者的影响。Global Distributed tables for whole large cluster 也被配置为一些ad-hoc 或overview 风格的查询,但它们不是那么频繁并且对延迟要求较低。这仍然为写入数据的应用程序留下了自由,可以在形成子集群的碎片之间任意平衡它(通过直接写入它们)。但是为了让这一切一起工作,写入和读取数据的应用程序需要有一个一致的映射,从使用的任何高基数 ID(在 Metrica 的情况下是 CounterID)到它包含的子集群 ID 和主机名。 Metrica 将此映射存储在 MySQL 中,但在其他情况下,其他内容可能看起来更适用。
另一种方法是使用“optimize_skip_unused_shards”设置,使对分布式表的分片键有条件的 SELECT 查询跳过不应包含数据的分片。它引入了数据在分片之间分布的要求,就像它是通过这个分布式表写入的一样,否则报告将不会包含一些错位的数据。
关于sharding - yandex 如何实现 2 层分片,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56589290/
1、SQL解析 当Sharding-JDBC接受到一条SQL语句时,会陆续执行 SQL解析 => 查询优化 => SQL路由 => SQL改写 => SQL执行 =>结
1、读写分离简介 对于同一时刻有大量并发读操作和较少写操作类型的应用系统来说,将数据库拆分为主库和从库,主库负责处理事务性的增删改操作,从库负责处理查询操作,能够有效的避免由数据更新导致的行锁,使得
将从各个数据节点获取的多数据结果集,组合成为一个结果集并正确的返回至请求客户端,称为结果归并。也是Sharding 执行过程 SQL解析 => 执行器优化 => SQL路由 => S
ShardingSphere采用一套自动化的执行引擎,负责将路由和改写完成之后的真实SQL安全且高效发送到底层数据源执行。 它不是简单地将SQL通过JDBC直接发送至数据源执行;也并非直接将执行请求放
Sharding-jdbc 官方文档讲的不是很全面和清楚,学习的时候特意再记录补充下 官方文档地址:http://shardingsphere.apache.org/index_zh.html 一
1.详细报错信息: Caused by: org.apache.ibatis.exceptions.PersistenceException: ## Error updating database.
I'm building a niche social media DB on planetscale that spans users living in multiple countries
在 keras/tensorflow 中训练模型时: 代码片段: strategy = tf.distribute.experimental.MultiWorkerMirroredStrategy()
背景:之前的项目做读写分离的时候用的 MybatisPlus的动态数据做的,很多地方使用的@DS直接指定的读库或者写库实现的业务;随着表数据量越来越大,现在打算把比较大的表进行水平拆分,准备使用
基础分库 以下实例基于shardingsphere 4.1.0 + SpringBoot 2.2.5.RELEASE版本 依赖导入: UTF-8 UTF-8 2.2.5.RE
我有兴趣在多个服务器上分割我的网站用户数据。 例如,用户将从同一位置登录。但登录脚本需要弄清楚用户数据驻留在哪个服务器上。因此,登录脚本将在主注册表中查询该用户名,并且可能会返回该用户名位于服务器 B
最近我们团队的D-SMART在做蚂蚁的OCEANBASE的适配,因此又把OB的资料拿出来,重新做研究。要想让D-SMART纳管OCEANBASE,不像一些传统的监控软件那么简单,只要把一些关键指标接
本文基于shardingsphere-jdbc-core-spring-boot-starter 5.0.0,请注意不同版本的sharding-jdbc配置可能有不一样的地方,本文不一定适用于其它版本
我想在 arangoDB 中使用分片。我已经制作了协调器,如文档 2.8.5 中提到的 DBServers。但是仍然有人仍然可以详细解释它,以及我如何能够在分片前后检查查询的性能。 最佳答案 可以测试
我读到每个 kinesis 流可以有多个消费者应用程序。 http://docs.aws.amazon.com/kinesis/latest/dev/developing-consumers-with
我正在使用一个预先存在的 bash 文件为开源数据服务器(Zotero)设置一系列数据库,但我遇到了一个我不熟悉的 mysql 结构: MASTER="mysql -h localhost -P 33
我们遇到了一个生产事件,Elasticsearch 集群健康检查返回了 red 状态。健康检查报告显示 marvel-2019.06.20 有 2 个 unassigned_shards,这似乎是根本
我在分布式系统中遇到分片移动问题。 【问题】 最初每个分区负责任意数量的分片。 (这个数字可以是任意的,因为系统支持将分片从一个分区移动到另一个分区) 然后一个新的分区来了,系统需要重新分片。目标是使
Sharding-JDBC中的分片策略有两个维度,分别是: 数据源分片策略(DatabaseShardingStrategy) 表分片策略(TableShardingStrategy)
1、Sharding 的应用场景一般都那些? 当数据库中的数据量越来越大时,不论是读还是写,压力都会变得越来越大。试想,如果一张表中的数据量达到了千万甚至上亿级别的时候,不管是建索引,优化缓存等,
我是一名优秀的程序员,十分优秀!