gpt4 book ai didi

hadoop - 最多 200 列的行交互式查询的最佳大数据解决方案是什么?

转载 作者:可可西里 更新时间:2023-11-01 16:17:50 28 4
gpt4 key购买 nike

我们有一个简单的表格如下:

------------------------------------------------------------------------
| Name | Attribute1 | Attribute2 | Attribute3 | ... | Attribute200 |
------------------------------------------------------------------------
| Name1 | Value1 | Value2 | null | ... | Value3 |
| Name2 | null | Value4 | null | ... | Value5 |
| Name3 | Value6 | null | Value7 | ... | null |
| ... |
------------------------------------------------------------------------

但是可能有多达数亿行/名称。数据将每隔一小时左右填充一次。

目标是在几秒钟内获得数据交互式查询的结果。

大多数查询看起来像:

select count(*) from table
where Attribute1 = Value1 and Attribute3 = Value3 and Attribute113 = Value113;

where 子句包含任意数量的属性名称-值对。

我是大数据领域的新手,想知道在数据存储(MySQL、HBase、Cassandra 等)和处理引擎(Hadoop、Drill、Storm 等)方面,对于上述交互式查询,最佳选择是什么。

最佳答案

像 Vertica(闭源)或 MonetDB(开源 - 但我没有使用过)这样的列式数据库将有效地处理您提到的那些查询。在 50000 英尺 View 中,原因是它们分别存储每一列,因此在需要查询数据时不会读取任何不需要的列 - 对于您的示例,将读取 3 个属性,而不会读取其他 197 个

关于hadoop - 最多 200 列的行交互式查询的最佳大数据解决方案是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16026085/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com