- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我们目前正在调查使用多个列族对我们的 bigtable 查询性能的影响。我们发现将列拆分为多个列族并不会提高性能。有没有人有过类似的经历?
关于我们的基准设置的更多细节。此时,我们生产表中的每一行都包含大约 5 列,每列包含 0.1 到 1 KB 的数据。所有列都存储在一个列族中。执行行键范围过滤器(平均返回 340 行)并应用列正则表达式拟合器(每行仅返回 1 列)时,查询平均需要 23.3 毫秒。我们创建了一些测试表,其中每行的列/数据量增加了 5 倍。在测试表 1 中,我们将所有内容都保留在一个列族中。正如预期的那样,这将同一查询的查询时间增加到 40.6 毫秒。在测试表 2 中,我们将原始数据保留在一个列族中,但将额外的数据放入另一个列族中。当查询包含原始数据的列族(因此包含与原始表相同的数据量)时,查询时间平均为 44.3ms。所以当使用更多的列族时,性能甚至会下降。
这与我们预期的完全相反。例如。这在 bigtable 文档中提到( https://cloud.google.com/bigtable/docs/schema-design#column_families )
Grouping data into column families allows you to retrieve data from a single family, or multiple families, rather than retrieving all of the data in each row. Group data as closely as you can to get just the information that you need, but no more, in your most frequent API calls.
filter = bigtable.ChainFilters(bigtable.FamilyFilter(request.ColumnFamily),
bigtable.ColumnFilter(colPattern), bigtable.LatestNFilter(1))
tbl := bf.Client.Open(table)
rr := bigtable.NewRange(request.RowKeyStart, request.RowKeyEnd)
err = tbl.ReadRows(c, rr, func(row bigtable.Row) bool {return true}, bigtable.RowFilter(filter))
最佳答案
如果您每行检索 X 个单元格,无论这些单元格是在 X 个单独的列族中还是在具有 X 个列限定符的 1 个列族中,都不会产生重大的性能差异。
如果您实际上只需要具有某些特定用途的行的单元格,则性能差异就会出现 - 您可以避免选择该行的所有单元格,而只获取一个列族(通过指定 filter on the ReadRow call )
一个更重要的因素是简单地选择一个准确描述您的数据的模式。如果你这样做,上述类型的任何 yield 都会自然而然地出现。此外,您将避免达到 100 个列族推荐限制。
例如:假设您正在编写排行榜软件,并且您想要存储玩家在每场比赛中的得分和一些个人详细信息。您的架构可能是:
关于bigdata - Bigtable 性能影响列族,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46465762/
我只是想了解我们应该如何规划 NiFi 实例的容量。 我们有一个 NiFi 实例,它有大约 500 个流。因此,NiFi canvas 上启用的处理器总数约为 4000。我们同时运行 2-5 个流,不
我试图了解所有数据湖和大数据之间是否存在真正的区别,如果你检查这两个概念都像一个大存储库,它会保存信息直到有必要,那么,我们什么时候可以说我们正在使用大数据还是数据湖? 提前致谢 最佳答案 我不能说我
我在挖掘有关物流运输的大型(100K 条目)数据集时遇到困难。我有大约 10 个名义字符串属性(即城市/地区/国家名称、客户/船舶识别码等)。除此之外,我还有一个日期属性“出发”和一个比例缩放数字属性
特别是围绕日志计数方法。 最佳答案 我将尝试阐明概率计数器的使用,但请注意,我不是这方面的专家。 目的是仅使用很少的空间来存储计数器(例如使用 32 位整数)来计数非常非常大的数字。 莫里斯提出了维持
我需要多少数据才能使用 Presto?该网站声称它可以查询从千兆字节到 PB 级的数据大小。我了解它是如何用于查询非常大的数据集的,但是有人将它用于数百 GB 的数据吗? 最佳答案 目前,如果您已经有
我目前正在考虑一个小“大数据”项目,我想每 10 分钟记录一些利用率,并将它们写入数据库几个月或几年。 然后我想分析数据,例如通过这些方式: 一天中的哪个时间最好(就低利用率而言)? 正常工作日和周末
我当时正在设置一个 Storm 集群来计算实时趋势和其他统计信息,但是通过允许kafka-spout上次读取的偏移量(kafka-spout的源代码来自此),我在向项目中引入“恢复”功能时遇到了一些问
我们目前正在调查使用多个列族对我们的 bigtable 查询性能的影响。我们发现将列拆分为多个列族并不会提高性能。有没有人有过类似的经历? 关于我们的基准设置的更多细节。此时,我们生产表中的每一行都包
将大量文档添加到 riak 中的最佳方法是什么?假设有数百万条产品记录,这些记录经常更改(价格等),并且我们希望非常频繁地更新所有这些记录。有没有比在 Riak 中一一替换 key 更好的方法?一次批
我有一个 Kusto 表,想要从两个 Azure Blob 位置提取数据。来自两个来源的数据都需要进行一些转换,因此我定义了两个更新策略。所以现在我有两个源表和一个目标表。第一个更新策略运行良好,然后
我有一个 Kusto 表,想要从两个 Azure Blob 位置提取数据。来自两个来源的数据都需要进行一些转换,因此我定义了两个更新策略。所以现在我有两个源表和一个目标表。第一个更新策略运行良好,然后
大数据的DAG(有向无环图)执行很常见。我想知道 Apache Flink 如何实现迭代,因为该图可能是循环的。 最佳答案 如果Flink执行迭代程序,数据流图不是DAG,而是允许循环。但是,这个循环
我们正在简化 Airflow 代码库的构建/部署管道。 有没有人有使用 CI/CD 工具为 Apache Airflow 构建和部署管道的经验? 您如何在不同环境(如测试、暂存、生产等)中部署您的 A
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我将记录作为单个空格分隔的字符串。所以我正在解析它们并使用更新策略将它们摄取到目标表中。但是,我想检查一些条件,例如确保列值(字符串)的长度是否为 4,如果不是,则将其从摄取中删除。是否可以在 Kus
目前,我只能看到使用以天为单位指定的保留期的示例。我们可以在 Kusto 中以年为单位指定表的保留期吗?我的意思是下面的命令会将保留期设置为 10 年吗?.alter-merge table Tabl
为基于 Web 的应用程序存储大量数据的最佳方式是什么? 每条记录只有 3 个字段,但每天大约有 1.44 亿条记录 - 存储一个月 - 总共 4,464,000,000 条记录。我们四舍五入到 50
Hive 中表的分桶和索引之间的主要区别是什么? 最佳答案 主要区别在于目标: 索引 The goal of Hive indexing is to improve the speed of quer
本文整理了Java中com.bigdata.service.geospatial.ZOrderRangeScanUtil类的一些代码示例,展示了ZOrderRangeScanUtil类的具体用法。这些
我想知道查询并行性在 apache ignite 中是如何实现的。结果数字与没有并行性的结果完全不同。谢谢 最佳答案 在没有查询并行性的情况下,Ignite 在节点之间拆分查询执行:为每个节点映射请求
我是一名优秀的程序员,十分优秀!