database - greenplum分区优化-6ren

database - greenplum分区优化

转载作者：搜寻专家更新时间：2023-10-30 23:19:23

25

4

在 greenplum 上，我有一个名为 fact_table 的大表，它按 RANGE(day_bucket) 分区。为什么以下查询这么慢:

select max(day_bucket) from fact_table where day_bucket >= '2011-09-11 00:00:00' and day_bucket < '2011-12-14'.

我想它应该只查看每个分区的头部并立即返回结果，因为相同的 day_bucket 列的每个分区。但是greenplum做了一次FULL扫描来计算结果。谁能给我解释一下原因？

更新:

感谢您回答我的问题，但这对您的提示没有帮助。 Greenplum 总是进行全面扫描，即使我使用 PARTITION BY LIST(day_bucket) 创建表也是如此:

CREATE TABLE fact_table (    id character varying(25) NOT NULL,    day_bucket timestamp without time zone NOT NULL,)WITH (appendonly=true, orientation=column, compresstype=zlib, compresslevel=6) DISTRIBUTED BY (user_id) PARTITION BY LIST(day_bucket)           (          PARTITION p20120101 VALUES ('2012-01-01 00:00:00'::timestamp without time zone) WITH (tablename='fact_table_1_prt_p20120101', appendonly=true, orientation=column, compresstype=zlib, compresslevel=6 ),           PARTITION p20120102 VALUES ('2012-01-02 00:00:00'::timestamp without time zone) WITH (tablename='fact_table_1_prt_p20120102', appendonly=true, orientation=column, compresstype=zlib, compresslevel=6 ),           PARTITION p20120103 VALUES ('2012-01-03 00:00:00'::timestamp without time zone) WITH (tablename='fact_table_1_prt_p20120103', appendonly=true, orientation=column, compresstype=zlib, compresslevel=6 ),           PARTITION p20120104 VALUES ('2012-01-04 00:00:00'::timestamp without time zone) WITH (tablename='fact_table_1_prt_p20120104', appendonly=true, orientation=column, compresstype=zlib, compresslevel=6 ),        .....

Explain 命令表明它总是进行全面扫描:

-> myteSTList_1_prt_p20120102 myteSTList 上的仅附加列扫描(成本=0.00..34.95 行=1 宽度=8) 过滤器:day_bucket >= '2012-01-02 00:00:00'::timestamp without time zone AND day_bucket Append-only Columnar Scan on myteSTList_1_prt_p20120103 myteSTList (cost=0.00..39.61 rows=1 width=8) 过滤器:day_bucket >= '2012-01-02 00:00:00'::timestamp without time zone AND day_bucket

最佳答案

您应该注意应用于分区的约束。为了让优化器正确地从扫描中排除一些分区，你应该帮助他。在您的情况下，您应该使用显式类型转换:(GP 在规划阶段无法自动理解像 'yyyy-mm-dd' 这样的刺痛实际上是时间戳)

select max(day_bucket) 
from fact_table 
where day_bucket >= '2011-09-11 00:00:00'::timestamp 
  and day_bucket <  '2011-12-14'::timestamp

关于database - greenplum分区优化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8514154/

25

4

0

文章推荐： database - 请求有关在 Oracle 11g 中定义主键的建议

文章推荐： c++ - 更改数据库连接后如何更新 QSqlTableModel

文章推荐： c# - 如何使用数组值更新数据库中的列？

greenplum - 如何增加 greenplum 并发度和每秒查询数
我们有一个相当大的 Greenplum v4.3 集群。 18台主机，每台主机有3个segment节点。每台主机大约有40个核心和60G内存。我们的表有 30 列宽，有 1 亿行。我们正在测试的查询
greenplum - 什么时候应该使用 Greenplum 数据库而不是 HAWQ？
我们有零售行业数据的用例。我们正在制作 EDW。我们目前正在从 HAWQ 进行报告。但是我们想将我们的 MPP 数据库从 Hawq 转移到 Greenplum。基本上，我们想对当前的数据管道进行更改
greenplum - 提示错误 :Setting Up Greenplum command center web Application with centos 6. 5
我们有小型 gpdb 集群。在那里，我们正在尝试设置 Greenplum 指挥中心门户网站。环境是产品 |版本 Pivotal Greenplum (GPDB) 4.3.x Pivotal Gre
linux - Greenplum 安全 : How do i setup Password-less Login: Windows (via Putty) to Linux(greenplum master machine-centos6. 5) 在 gpdb 集群中
我们有小型 GPDB 集群阵列。我们最近升级了 GPDB 并配置了 GCC 门户网站。在那，我们注意到我们的机器在 SSH 时仍然显示密码。我们尝试在 greenplum 机器上执行以下文档命令:
hadoop - Greenplum PXF是否支持HDFS短路读取？
我想知道当我们将pxf和datanode放在同一主机上时，Greenplum PXF是否可以利用HDFS短路读取的优势。我们进行了初步测试，但是，pxf似乎没有利用短路读数。谷歌搜索后几乎没有任何东
hadoop - greenplum hadoop在greenplum中如何配置生成gphdfs.so
在greenplum中如何配置生成gphdfs.so？当我 postgres=# CREATE EXTERNAL TABLE csv_hdfs_lineitem (like a) LOCATION (
sql - DISTRIBUTE BY Greenplum 中的通知
假设我在 psql 上运行以下查询: > select a.c1, b.c2 into temp_table from db.A as a inner join db.B as b > on a.x
sql - DISTRIBUTE BY Greenplum 中的通知
假设我在 psql 上运行以下查询: > select a.c1, b.c2 into temp_table from db.A as a inner join db.B as b > on a.x
sql - 在 Greenplum 中实现公用表表达式
有没有办法强制 Greenplum PostgreSQL 在 WITH 子句中具体化子查询，例如 MATERIALIZE 和 INLINE optimizer hints在 Oracle 中执行以下操
postgresql - 在 Greenplum 上分块执行查询
我正在尝试创建一种将批量日期查询转换为增量查询的方法。例如，如果查询将 where 条件指定为 WHERE date > now()::date - interval '365 days' and d
postgresql - GreenPlum 子字符串 - 获取长文本的一部分
假设我有一个很长的 URL xyz = 'www.google.com/xyz?para1=value1¶2=value2¶3=value3....' 我正在尝试从这个长 URL 中获
postgresql - Greenplum:无法删除/截断表
我在 Greenplum(4.3.5.1) 中有一个表，我想删除最初使用主键约束创建的约束。我尝试这样做，但查询运行了 2-3 小时，我已取消它，因为没有其他选择，然后我进行了备份并尝试删除表，但查
sql - Greenplum plpgsql 函数在输入结束时返回语法错误
我在 Greenplum 中编写了一个 PL/pgSQL 函数，该函数需要翻译 interval哪个< interval '00:00:00'为正值。例如区间值-23:57:00应该翻译成00:03
postgresql - 对 Greenplum 中的表列进行解聚合
我正在使用 Greenplum，我有这样的数据: id | val ----+----- 12 | 12 12 | 23 12 | 34 13 | 23 13 | 34 13
php - 为什么用 greenplum 准备这么慢？
我连接了一个greenplum，我发现pdo太慢了我的测试脚本是这样的 = '2017-01-17' and date query($sql); $end = microtime(true); #v
hadoop - 向 Greenplum 物理表中插入数据
我正在尝试将数据从 Greenplum 外部表插入到物理(或普通表)表中。外部表指向一个包含大约 1.32 亿数据的配置单元文件。但是，当我的外部表显示只有 6600 万的计数时。结果，当插入物理表时
sql - Greenplum 与 PostgreSQL
支持和反对使用 Greenplum 的论据是什么？而不是 PostgreSQL在 webapp (django) 环境中？我的直觉 react 是更喜欢 PostgreSQL 的开源方法和庞大的知识
postgresql - Greenplum，是否可以将 CSV 导出到远程服务器？
我想知道，是否可以使用 PostgreSQL 将数据从 Greenplum 中的表导出到 CSV 但到远程服务器，或者 CSV 的传输必须手动完成(或通过脚本)。最佳答案 Greenplum 有一个
database - Greenplum 与 Postgres-XL
我正在查看这两个大规模并行数据库:Postgres-XL和 Greenplum . 问题是，我不知道如何在它们之间做出选择，因为它们看起来都一样:都是开源的，基于 PostgreSQL，都使用 MPP
postgresql - Greenplum 数据库没有动态扩展到我们的 Linux 系统
这种情况下的主要困难是来自 Greenplum 数据库的磁盘空间不足错误。我们在 Amazon Linux 机器上运行 Greenplum 数据库 4.2.0.0。调查显示如下: 1) Greenp

首页

博学

6Ren·AI

商城

database - greenplum分区优化