bigdata - Bigtable 性能影响列族-6ren

bigdata - Bigtable 性能影响列族

转载作者：行者123 更新时间：2023-12-03 17:16:16

26

4

我们目前正在调查使用多个列族对我们的 bigtable 查询性能的影响。我们发现将列拆分为多个列族并不会提高性能。有没有人有过类似的经历？

关于我们的基准设置的更多细节。此时，我们生产表中的每一行都包含大约 5 列，每列包含 0.1 到 1 KB 的数据。所有列都存储在一个列族中。执行行键范围过滤器(平均返回 340 行)并应用列正则表达式拟合器(每行仅返回 1 列)时，查询平均需要 23.3 毫秒。我们创建了一些测试表，其中每行的列/数据量增加了 5 倍。在测试表 1 中，我们将所有内容都保留在一个列族中。正如预期的那样，这将同一查询的查询时间增加到 40.6 毫秒。在测试表 2 中，我们将原始数据保留在一个列族中，但将额外的数据放入另一个列族中。当查询包含原始数据的列族(因此包含与原始表相同的数据量)时，查询时间平均为 44.3ms。所以当使用更多的列族时，性能甚至会下降。

这与我们预期的完全相反。例如。这在 bigtable 文档中提到( https://cloud.google.com/bigtable/docs/schema-design#column_families )

Grouping data into column families allows you to retrieve data from a single family, or multiple families, rather than retrieving all of the data in each row. Group data as closely as you can to get just the information that you need, but no more, in your most frequent API calls.

有人对我们的发现有解释吗？

benchmark results

(编辑:添加了更多细节)

单行内容:

表 1 :

CF1

col1

col2

...

col25

表 2 :

CF1

col1

col2

..

col5

CF2

col6

col7

..

col25

我们正在执行的基准测试是使用 go 客户端。调用API的代码基本如下:

filter = bigtable.ChainFilters(bigtable.FamilyFilter(request.ColumnFamily),
            bigtable.ColumnFilter(colPattern), bigtable.LatestNFilter(1))
tbl := bf.Client.Open(table)
rr := bigtable.NewRange(request.RowKeyStart, request.RowKeyEnd)
err = tbl.ReadRows(c, rr, func(row bigtable.Row) bool {return true}, bigtable.RowFilter(filter))

最佳答案

如果您每行检索 X 个单元格，无论这些单元格是在 X 个单独的列族中还是在具有 X 个列限定符的 1 个列族中，都不会产生重大的性能差异。

如果您实际上只需要具有某些特定用途的行的单元格，则性能差异就会出现 - 您可以避免选择该行的所有单元格，而只获取一个列族(通过指定 filter on the ReadRow call )

一个更重要的因素是简单地选择一个准确描述您的数据的模式。如果你这样做，上述类型的任何 yield 都会自然而然地出现。此外，您将避免达到 100 个列族推荐限制。

例如:假设您正在编写排行榜软件，并且您想要存储玩家在每场比赛中的得分和一些个人详细信息。您的架构可能是:

行键:用户名

列族用户信息

列限定符全名

列限定符 密码哈希

列族 game_scores

列限定符 candy_royale

列限定符 坦克冲突

将每个游戏作为一个单独的列存储在 game_scores 列族中允许一次获取用户的所有分数而无需同时获取 user_info，允许保持列族的数量可管理，允许每个游戏独立的时间序列分数和其他好处从反射(reflect)数据的性质。

关于bigdata - Bigtable 性能影响列族，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46465762/

26

4

0

文章推荐： vim - 如何在 Neovim 的后台运行脚本？

文章推荐： python - 稀疏文件 : How to find contents

文章推荐： macos - 沙盒不允许在终端中打开文档

文章推荐： git - 限制分支 X 仅从 Github 中的一个特定分支 Y merge

bigdata - NiFi内存管理
我只是想了解我们应该如何规划 NiFi 实例的容量。我们有一个 NiFi 实例，它有大约 500 个流。因此，NiFi canvas 上启用的处理器总数约为 4000。我们同时运行 2-5 个流，不
bigdata - 数据湖和大数据是一样的吗？
我试图了解所有数据湖和大数据之间是否存在真正的区别，如果你检查这两个概念都像一个大存储库，它会保存信息直到有必要，那么，我们什么时候可以说我们正在使用大数据还是数据湖？提前致谢最佳答案我不能说我
bigdata - 通过高维标称属性预测数值属性
我在挖掘有关物流运输的大型(100K 条目)数据集时遇到困难。我有大约 10 个名义字符串属性(即城市/地区/国家名称、客户/船舶识别码等)。除此之外，我还有一个日期属性“出发”和一个比例缩放数字属性
bigdata - 有人能解释一下概率计数是如何工作的吗？
特别是围绕日志计数方法。最佳答案我将尝试阐明概率计数器的使用，但请注意，我不是这方面的专家。目的是仅使用很少的空间来存储计数器(例如使用 32 位整数)来计数非常非常大的数字。莫里斯提出了维持
bigdata - 我需要多少数据才能使用 Presto？
我需要多少数据才能使用 Presto？该网站声称它可以查询从千兆字节到 PB 级的数据大小。我了解它是如何用于查询非常大的数据集的，但是有人将它用于数百 GB 的数据吗？最佳答案目前，如果您已经有
bigdata - 哪个数据库用于按天比较数据类(class)？
我目前正在考虑一个小“大数据”项目，我想每 10 分钟记录一些利用率，并将它们写入数据库几个月或几年。然后我想分析数据，例如通过这些方式: 一天中的哪个时间最好(就低利用率而言)？正常工作日和周末
bigdata - 在Kafka-storm中未能将偏移数据写入Zookeeper
我当时正在设置一个 Storm 集群来计算实时趋势和其他统计信息，但是通过允许kafka-spout上次读取的偏移量(kafka-spout的源代码来自此)，我在向项目中引入“恢复”功能时遇到了一些问
bigdata - Bigtable 性能影响列族
我们目前正在调查使用多个列族对我们的 bigtable 查询性能的影响。我们发现将列拆分为多个列族并不会提高性能。有没有人有过类似的经历？关于我们的基准设置的更多细节。此时，我们生产表中的每一行都包
bigdata - 将数百万个文档写入 Riak
将大量文档添加到 riak 中的最佳方法是什么？假设有数百万条产品记录，这些记录经常更改(价格等)，并且我们希望非常频繁地更新所有这些记录。有没有比在 Riak 中一一替换 key 更好的方法？一次批
bigdata - Kusto 表可以有多个更新策略吗？
我有一个 Kusto 表，想要从两个 Azure Blob 位置提取数据。来自两个来源的数据都需要进行一些转换，因此我定义了两个更新策略。所以现在我有两个源表和一个目标表。第一个更新策略运行良好，然后
bigdata - Kusto 表可以有多个更新策略吗？
我有一个 Kusto 表，想要从两个 Azure Blob 位置提取数据。来自两个来源的数据都需要进行一些转换，因此我定义了两个更新策略。所以现在我有两个源表和一个目标表。第一个更新策略运行良好，然后
bigdata - Apache Flink是如何实现迭代的？
大数据的DAG(有向无环图)执行很常见。我想知道 Apache Flink 如何实现迭代，因为该图可能是循环的。最佳答案如果Flink执行迭代程序，数据流图不是DAG，而是允许循环。但是，这个循环
bigdata - Airflow 代码库的部署
我们正在简化 Airflow 代码库的构建/部署管道。有没有人有使用 CI/CD 工具为 Apache Airflow 构建和部署管道的经验？您如何在不同环境(如测试、暂存、生产等)中部署您的 A
hadoop - "Bigdata"有多大数据？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
bigdata - 如何确保特定列值在 Kusto 中有四个字符？
我将记录作为单个空格分隔的字符串。所以我正在解析它们并使用更新策略将它们摄取到目标表中。但是，我想检查一些条件，例如确保列值(字符串)的长度是否为 4，如果不是，则将其从摄取中删除。是否可以在 Kus
bigdata - 我们可以在 Kusto 中以年为单位设置表的保留期吗？
目前，我只能看到使用以天为单位指定的保留期的示例。我们可以在 Kusto 中以年为单位指定表的保留期吗？我的意思是下面的命令会将保留期设置为 10 年吗？.alter-merge table Tabl
bigdata - 在基于 Web 的应用程序中处理大量数据
为基于 Web 的应用程序存储大量数据的最佳方式是什么？每条记录只有 3 个字段，但每天大约有 1.44 亿条记录 - 存储一个月 - 总共 4,464,000,000 条记录。我们四舍五入到 50
hadoop - Hive(Bigdata)-分桶和索引的区别
Hive 中表的分桶和索引之间的主要区别是什么？最佳答案主要区别在于目标: 索引 The goal of Hive indexing is to improve the speed of quer
com.bigdata.service.geospatial.ZOrderRangeScanUtil类的使用及代码示例
本文整理了Java中com.bigdata.service.geospatial.ZOrderRangeScanUtil类的一些代码示例，展示了ZOrderRangeScanUtil类的具体用法。这些
bigdata - 如何在 apache ignite 中实现查询并行性？
我想知道查询并行性在 apache ignite 中是如何实现的。结果数字与没有并行性的结果完全不同。谢谢最佳答案在没有查询并行性的情况下，Ignite 在节点之间拆分查询执行:为每个节点映射请求

首页

博学

6Ren·AI

商城

bigdata - Bigtable 性能影响列族