- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我一直在努力使 SQL Server 成为某种东西,坦率地说,它永远不会成为这样的东西。我的分析工作需要一个数据库引擎。数据库需要快速并且不需要典型数据库(SQL Server、Oracle、DB2 等)中的所有日志记录和其他开销。
昨天我听了Michael Stonebraker speak at the Money:Tech conference我一直在想,“我不是真的疯了。有更好的方法!”他谈到使用 column stores而不是面向行的数据库。我去了 column stores 的维基百科页面我看到了一些开源项目(我喜欢)和一些商业/开源项目(我不完全理解)。
我的问题是:在应用分析环境中,不同的基于列的数据库有何不同?我应该怎么想他们?有人对基于多列的系统有实践经验吗?我能否在这些数据库中利用我的 SQL 经验,还是我必须学习一门新语言?
我最终会将数据提取到 R 中进行分析。
编辑:有人要求我澄清我到底想做什么。所以,这是我想做的一个例子:创建一个包含 400 万行和 20 列(5 个维度,15 个事实)的表。创建 5 个聚合表,计算每个事实的最大值、最小值和平均值。将这 5 个聚合连接回起始表。现在计算每行的平均值偏差百分比、最小偏差百分比和最大值偏差百分比,并将其添加到原始表中。该表数据不会每天都有新行,它会被完全替换并重复该过程。如果必须停止该过程,天堂禁止。还有原木……哦,原木! :)
最佳答案
简短的回答是,对于分析数据,列存储往往速度更快,需要的调整更少。
行存储是传统的数据库架构,擅长插入少量行、就地更新行和查询少量行。在行存储中,这些操作可以通过一个或两个磁盘 block I/O 来完成。
分析数据库通常一次加载数千条记录;有时,就像您的情况一样,他们会重新加载所有内容。它们往往是非规范化的,所以有很多列。并且在查询时,他们经常读取表中大部分的行,但只读取其中的少数列。因此,从 I/O 的角度来看,将同一列的值存储在一起是有意义的。
事实证明,这为数据库提供了进行值(value)压缩的巨大机会。例如,如果字符串列的平均长度为 20 个字节,但只有 25 个不同的值,则数据库可以将每个值压缩到大约 5 位。列存储数据库通常可以在不解压缩数据的情况下运行。
在计算机科学中,通常存在 I/O 与 CPU 时间的权衡,但在列存储中,I/O 的改进通常会改善引用的局部性,减少缓存分页事件,并允许更大的压缩因子,从而使 CPU 也获得 yield 。
列存储数据库还倾向于具有其他面向分析的功能,如位图索引(另一种情况,其中更好的组织允许更好的压缩,减少 I/O,并允许更高效的 CPU 算法)、分区和物化 View .
另一个因素是是否使用大规模并行 (MMP) 数据库。有 MMP 行存储和列存储数据库。 MMP 数据库可以扩展到数百或数千个节点,并允许您存储大量数据,但有时会做出妥协,例如较弱的事务概念或不完全是 SQL 的查询语言。
我建议您尝试一下 LucidDB。 (免责声明:我是 LucidDB 的贡献者。)它是开源列存储数据库,针对分析应用程序进行了优化,还具有位图索引等其他功能。它目前仅在一个节点上运行,但可以有效地利用多个内核,并且可以毫不费力地处理合理的数据量。
关于database - 列存储 : Comparing Column Based Databases,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/659725/
这正确地呈现了标题,因为我可以看到一个列带有“Product ID”标题的表:。我正试图重构它,这样我就可以重用它,因为它们在整个应用程序中几乎是相同的:。在这种情况下,头不会呈现...检查页面元素中
我什至不知道如何表达这一点,但在 Python 中有没有一种方法可以引用等号之前的文本,而无需实际再次编写? ** 编辑 - 我在 Jupyter 中使用 python3 我似乎用了半辈子的时间来写作
假设我有一个包含以下列的字典 dict_ = [ {'key1': 'value1', 'key2': 'value2', 'key3': 'value3', '
假设我有一个包含以下列的字典 dict_ = [ {'key1': 'value1', 'key2': 'value2', 'key3': 'value3', '
假设我的数据库中有一张地铁 map ,其中每条线路的每个站点都是一行。如果我想知道我的线路在哪里互连: mysql> SELECT LineA.stop_id FROM LineA, LineB WH
代码 select c1,c2,c3,c4,c5,c6 from table where c5 in ('a', 'b') 从这里开始,我想将 c5 列拆分为两列,然后根据它们对 c
我正在尝试搜索表格中的两列,即标题和描述。但我想先搜索标题,然后再搜索描述。所以匹配标题的所有行排在第一位,所有匹配描述的行排在第二位 我可以使用单个 SQL 查询来实现吗? 最佳答案 您还可以使用
下面有以下 Python 数据框。 “标志”字段是我想要用代码创建的所需列。 我想要执行以下操作: 如果“分配类型”是预测的并且“Activities_Counter”大于 10,我想创建一个名为“F
我有两列,area 和 block,其中 area 是一个 int 类型,block 是一个 varchar。 现在我正在写两个查询: select * from table where area a
使用 Slick 2,我试图生成一个带有元组 IN 子句的查询: select * from my_table where (a, b) IN ((1, 87)); 给定: val seq: Seq[
我正在尝试从数据透视表中获取一组值,其中 A 列等于值数组,例如 ID 12 的 attribute_value_id 等于 3 和 9。这可以做到吗?我已经走了这么远... ID | post_id
我找不到这样做的有效方法。我在 Python 中有以下 DataFrame,列从 A 到 Z A B C ... Z 0 2.0 8.0 1.0 ... 5.0 1
我的数据框中有以下格式的数据: >>> df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD')) >>> df
我有多个与我公司销售的产品相关的表被新产品取代,随着时间的推移,这导致了多个表的出现。 我一遍又一遍地使用以下查询,直到最终表中只剩下 2 个产品... CREATE TABLE mar15a
我有如下 2 个表:- 表A ------------------------------- | product_id | price | --------------------
我有一个名为 tbl_mainsheet7 的表,创建方式如下: pk_mainsheet client_id project_id mainsheet_id project_cat EA_
我得到了以下 HTML 结构: ... ... 我的 CSS: #main-container { width:80%; margin:20px auto;
对于我的以下要求,我无法获得解决方案。 如果 data.table(如下)在 Col1 和 Col3 中有匹配的值。替换 Col2 值(旧的 New-Val)。 Col1 Col2 Col3
我正在通过连接几个表来构建一个 View ,以通过 Entity Framework 提取数据。由于此 View 没有唯一列,EntityFramework 无法检索正确的结果集(即第一列重复)。 为
好的,我已经尝试了太久了,是时候寻求帮助了。我有一个看起来有点像这样的数据框: person fruit quantity all_fruits 0 p1 grapes 2
我是一名优秀的程序员,十分优秀!