postgresql - 在 Greenplum 上分块执行查询-6ren

postgresql - 在 Greenplum 上分块执行查询

转载作者：行者123 更新时间：2023-11-29 14:01:03

24

4

我正在尝试创建一种将批量日期查询转换为增量查询的方法。例如，如果查询将 where 条件指定为

WHERE date > now()::date - interval '365 days' and date < now()::date

如果今天执行，这将获取一年的数据。现在，如果明天执行相同的查询，将再次获取 365 天的数据。但是，我已经有了上次运行的最近 364 天的数据。我只想获取一天的数据并从系统中删除一天的数据，这样我就可以得到性能更好的 365 天数据。此数据将存储在单独的临时表中。

为此，我创建了一个增量查询，它将在下次运行时执行。但是，当“日期”列在 SELECT 子句中不具有但在 WHERE 条件中具有功能时，删除单个日期数据被证明是棘手的，因为临时表模式将没有“日期”列。

所以我想到了以 block 的形式执行批量查询并为该 block 分配一个 ID。这样，我可以删除一个 block 并添加一个 block ，而其他数据不受影响。

有没有办法在 postgres 或 greenplum 中实现同样的效果？就像一些内置功能。我浏览了整个文档，但找不到任何内容。

另外，如果没有，有没有更好的办法解决这个问题。

最佳答案

我认为这最好用聚合表之类的东西来处理(我假设问题是你有大量的聚合来处理大量数据)。这不一定会导致规范化问题(而且数据仓库通常会反规范化)。在这方面，您需要的聚合可以每天存储，这样您就可以减少到每天一条记录的封闭数据，加上非封闭数据。将聚合保留为无法更改的数据是避免规范化阻止的正常插入/更新异常所必需的。

关于postgresql - 在 Greenplum 上分块执行查询，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17726405/

24

4

0

文章推荐： android - 如何加快在 Android 上打开 .png 位图的速度？

文章推荐： MySQL 查询和复选框方法

文章推荐： Android EditText 值未显示，getText 返回一个值

文章推荐： mysql - 数据库(反)规范化 - 包含不同实体图像的表

greenplum - 如何增加 greenplum 并发度和每秒查询数
我们有一个相当大的 Greenplum v4.3 集群。 18台主机，每台主机有3个segment节点。每台主机大约有40个核心和60G内存。我们的表有 30 列宽，有 1 亿行。我们正在测试的查询
greenplum - 什么时候应该使用 Greenplum 数据库而不是 HAWQ？
我们有零售行业数据的用例。我们正在制作 EDW。我们目前正在从 HAWQ 进行报告。但是我们想将我们的 MPP 数据库从 Hawq 转移到 Greenplum。基本上，我们想对当前的数据管道进行更改
greenplum - 提示错误 :Setting Up Greenplum command center web Application with centos 6. 5
我们有小型 gpdb 集群。在那里，我们正在尝试设置 Greenplum 指挥中心门户网站。环境是产品 |版本 Pivotal Greenplum (GPDB) 4.3.x Pivotal Gre
linux - Greenplum 安全 : How do i setup Password-less Login: Windows (via Putty) to Linux(greenplum master machine-centos6. 5) 在 gpdb 集群中
我们有小型 GPDB 集群阵列。我们最近升级了 GPDB 并配置了 GCC 门户网站。在那，我们注意到我们的机器在 SSH 时仍然显示密码。我们尝试在 greenplum 机器上执行以下文档命令:
hadoop - Greenplum PXF是否支持HDFS短路读取？
我想知道当我们将pxf和datanode放在同一主机上时，Greenplum PXF是否可以利用HDFS短路读取的优势。我们进行了初步测试，但是，pxf似乎没有利用短路读数。谷歌搜索后几乎没有任何东
hadoop - greenplum hadoop在greenplum中如何配置生成gphdfs.so
在greenplum中如何配置生成gphdfs.so？当我 postgres=# CREATE EXTERNAL TABLE csv_hdfs_lineitem (like a) LOCATION (
sql - DISTRIBUTE BY Greenplum 中的通知
假设我在 psql 上运行以下查询: > select a.c1, b.c2 into temp_table from db.A as a inner join db.B as b > on a.x
sql - DISTRIBUTE BY Greenplum 中的通知
假设我在 psql 上运行以下查询: > select a.c1, b.c2 into temp_table from db.A as a inner join db.B as b > on a.x
sql - 在 Greenplum 中实现公用表表达式
有没有办法强制 Greenplum PostgreSQL 在 WITH 子句中具体化子查询，例如 MATERIALIZE 和 INLINE optimizer hints在 Oracle 中执行以下操
postgresql - 在 Greenplum 上分块执行查询
我正在尝试创建一种将批量日期查询转换为增量查询的方法。例如，如果查询将 where 条件指定为 WHERE date > now()::date - interval '365 days' and d
postgresql - GreenPlum 子字符串 - 获取长文本的一部分
假设我有一个很长的 URL xyz = 'www.google.com/xyz?para1=value1¶2=value2¶3=value3....' 我正在尝试从这个长 URL 中获
postgresql - Greenplum:无法删除/截断表
我在 Greenplum(4.3.5.1) 中有一个表，我想删除最初使用主键约束创建的约束。我尝试这样做，但查询运行了 2-3 小时，我已取消它，因为没有其他选择，然后我进行了备份并尝试删除表，但查
sql - Greenplum plpgsql 函数在输入结束时返回语法错误
我在 Greenplum 中编写了一个 PL/pgSQL 函数，该函数需要翻译 interval哪个< interval '00:00:00'为正值。例如区间值-23:57:00应该翻译成00:03
postgresql - 对 Greenplum 中的表列进行解聚合
我正在使用 Greenplum，我有这样的数据: id | val ----+----- 12 | 12 12 | 23 12 | 34 13 | 23 13 | 34 13
php - 为什么用 greenplum 准备这么慢？
我连接了一个greenplum，我发现pdo太慢了我的测试脚本是这样的 = '2017-01-17' and date query($sql); $end = microtime(true); #v
hadoop - 向 Greenplum 物理表中插入数据
我正在尝试将数据从 Greenplum 外部表插入到物理(或普通表)表中。外部表指向一个包含大约 1.32 亿数据的配置单元文件。但是，当我的外部表显示只有 6600 万的计数时。结果，当插入物理表时
sql - Greenplum 与 PostgreSQL
支持和反对使用 Greenplum 的论据是什么？而不是 PostgreSQL在 webapp (django) 环境中？我的直觉 react 是更喜欢 PostgreSQL 的开源方法和庞大的知识
postgresql - Greenplum，是否可以将 CSV 导出到远程服务器？
我想知道，是否可以使用 PostgreSQL 将数据从 Greenplum 中的表导出到 CSV 但到远程服务器，或者 CSV 的传输必须手动完成(或通过脚本)。最佳答案 Greenplum 有一个
database - Greenplum 与 Postgres-XL
我正在查看这两个大规模并行数据库:Postgres-XL和 Greenplum . 问题是，我不知道如何在它们之间做出选择，因为它们看起来都一样:都是开源的，基于 PostgreSQL，都使用 MPP
postgresql - Greenplum 数据库没有动态扩展到我们的 Linux 系统
这种情况下的主要困难是来自 Greenplum 数据库的磁盘空间不足错误。我们在 Amazon Linux 机器上运行 Greenplum 数据库 4.2.0.0。调查显示如下: 1) Greenp

首页

博学

6Ren·AI

商城

postgresql - 在 Greenplum 上分块执行查询