greenplum - 什么时候应该使用 Greenplum 数据库而不是 HAWQ？-6ren

greenplum - 什么时候应该使用 Greenplum 数据库而不是 HAWQ？

转载作者：行者123 更新时间：2023-12-01 13:43:53

24

4

我们有零售行业数据的用例。我们正在制作 EDW。

我们目前正在从 HAWQ 进行报告。但是我们想将我们的 MPP 数据库从 Hawq 转移到 Greenplum。基本上，我们想对当前的数据管道进行更改。

我们对gpdb的困惑点:

gpdb 层将如何影响我们现有的数据管道。这里的数据管道是外部系统 --> talend -->hadoop-hawq-->tableau。我们想要将我们的数据管道转换为外部系统 --> talend-->hadoop-hawq-->greenplum -->tableau.
Greenplum 如何在物理上或逻辑上帮助 SQL转换和报告。
我应该选择哪种文件格式将文件存储在 GPDB 中
HAWQ 我们以纯文本格式存储文件。支持的格式有哪些适合在 gpdb 中写入，如 avro、parquet 等。
如何从 GPDB 处理数据文件。以便它还带来了更快的报告和预测分析。
有什么方法可以将数据从 HAWQ 推送到 Greenplum？我们是
寻找指导如何改变我们的报告用例
HAWQ INTO Greenplum。

如有任何帮助，我们将不胜感激？

最佳答案

这个查询有点像问“我什么时候应该使用 Spanner ？”答案也将是主观的，因为 Greenplum 可用于许多不同的事情。但是，我会尽力给出我的意见，因为你问了。

HOW gpdb layer going to affect our existing data pipeline. Here data pipeline is external system --> talend -->hadoop-hawq-->tableau. We want to transform our data pipeline as external system --> talend -->hadoop-hawq-->greenplum -->tableau.

有很多方法可以实现数据管道，您的目标是先将数据加载到 Hadoop，然后再将其加载到 Greenplum，这种方法很常见并且效果很好。您可以使用 Greenplum 中的外部表直接从 HDFS 并行读取数据。所以从Hadoop集群到Greenplum的数据移动可以通过一个简单的INSERT语句来实现。

INSERT INTO greenplum_customer SELECT * FROM hdfs_customer_file;

How Greenplum is physically or logically going to help in SQL transformation and reporting.

隔离一个。使用单独的 Greenplum 集群，您可以在不影响 Hadoop liveness 能的情况下为客户提供分析，反之亦然。这种隔离还可以提供额外的安全层。

Which file format should i opt for storing the files in GPDB while HAWQ we are storing files in plain text format.What are the supported format is good for writing in gpdb like avro,parquet etc.

使用您建议的数据管道，我会根据性能在 Greenplum 中做出数据格式决定。如此大的表，对表进行分区并使用 quicklz 压缩使其面向列。对于较小的表，只需对其进行追加优化。对于有大量更新或删除的表，将其保留为默认堆。

How is data file processed from GPDB . so, that it also bring faster reporting and predictive analysis.

Greenplum 是一个 MPP 数据库。存储是“无共享”的，这意味着每个节点都有其他节点没有的唯一数据(不包括高可用性镜像)。段的数据将始终在本地磁盘上。

在 HAWQ 中，因为它使用 HDFS，所以段的数据不必是本地的。第 1 天，当您将数据写入 HDFS 时，它是本地的，但在节点故障、扩展等之后，HAWQ 可能必须从其他节点获取数据。由于 Hadoop 的工作方式，这使得 Greenplum 的性能比 HAWQ 更具可预测性。

Is there any way to push data from HAWQ into Greenplum? We are looking for guidance how to take shift our reporting use case from HAWQ INTO Greenplum.

推，不是拉，是的。正如我上面提到的，您可以在 Greenplum 中创建一个外部表来从 HDFS 中选择数据。您还可以在 Greenplum 中创建可写外部表以将数据推送到 HDFS。

关于greenplum - 什么时候应该使用 Greenplum 数据库而不是 HAWQ？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37274483/

24

4

0

文章推荐： Java:在 Map、HashMap 上找不到符号错误

文章推荐： java - 无法为程序创建启动画面，还有颜色问题？

文章推荐： java - 如何加密 Crystal 和数据库服务器之间的数据

文章推荐： arrays - 在 ColdFusion 中使用 JSON 数据

greenplum - 如何增加 greenplum 并发度和每秒查询数
我们有一个相当大的 Greenplum v4.3 集群。 18台主机，每台主机有3个segment节点。每台主机大约有40个核心和60G内存。我们的表有 30 列宽，有 1 亿行。我们正在测试的查询
greenplum - 什么时候应该使用 Greenplum 数据库而不是 HAWQ？
我们有零售行业数据的用例。我们正在制作 EDW。我们目前正在从 HAWQ 进行报告。但是我们想将我们的 MPP 数据库从 Hawq 转移到 Greenplum。基本上，我们想对当前的数据管道进行更改
greenplum - 提示错误 :Setting Up Greenplum command center web Application with centos 6. 5
我们有小型 gpdb 集群。在那里，我们正在尝试设置 Greenplum 指挥中心门户网站。环境是产品 |版本 Pivotal Greenplum (GPDB) 4.3.x Pivotal Gre
linux - Greenplum 安全 : How do i setup Password-less Login: Windows (via Putty) to Linux(greenplum master machine-centos6. 5) 在 gpdb 集群中
我们有小型 GPDB 集群阵列。我们最近升级了 GPDB 并配置了 GCC 门户网站。在那，我们注意到我们的机器在 SSH 时仍然显示密码。我们尝试在 greenplum 机器上执行以下文档命令:
hadoop - Greenplum PXF是否支持HDFS短路读取？
我想知道当我们将pxf和datanode放在同一主机上时，Greenplum PXF是否可以利用HDFS短路读取的优势。我们进行了初步测试，但是，pxf似乎没有利用短路读数。谷歌搜索后几乎没有任何东
hadoop - greenplum hadoop在greenplum中如何配置生成gphdfs.so
在greenplum中如何配置生成gphdfs.so？当我 postgres=# CREATE EXTERNAL TABLE csv_hdfs_lineitem (like a) LOCATION (
sql - DISTRIBUTE BY Greenplum 中的通知
假设我在 psql 上运行以下查询: > select a.c1, b.c2 into temp_table from db.A as a inner join db.B as b > on a.x
sql - DISTRIBUTE BY Greenplum 中的通知
假设我在 psql 上运行以下查询: > select a.c1, b.c2 into temp_table from db.A as a inner join db.B as b > on a.x
sql - 在 Greenplum 中实现公用表表达式
有没有办法强制 Greenplum PostgreSQL 在 WITH 子句中具体化子查询，例如 MATERIALIZE 和 INLINE optimizer hints在 Oracle 中执行以下操
postgresql - 在 Greenplum 上分块执行查询
我正在尝试创建一种将批量日期查询转换为增量查询的方法。例如，如果查询将 where 条件指定为 WHERE date > now()::date - interval '365 days' and d
postgresql - GreenPlum 子字符串 - 获取长文本的一部分
假设我有一个很长的 URL xyz = 'www.google.com/xyz?para1=value1¶2=value2¶3=value3....' 我正在尝试从这个长 URL 中获
postgresql - Greenplum:无法删除/截断表
我在 Greenplum(4.3.5.1) 中有一个表，我想删除最初使用主键约束创建的约束。我尝试这样做，但查询运行了 2-3 小时，我已取消它，因为没有其他选择，然后我进行了备份并尝试删除表，但查
sql - Greenplum plpgsql 函数在输入结束时返回语法错误
我在 Greenplum 中编写了一个 PL/pgSQL 函数，该函数需要翻译 interval哪个< interval '00:00:00'为正值。例如区间值-23:57:00应该翻译成00:03
postgresql - 对 Greenplum 中的表列进行解聚合
我正在使用 Greenplum，我有这样的数据: id | val ----+----- 12 | 12 12 | 23 12 | 34 13 | 23 13 | 34 13
php - 为什么用 greenplum 准备这么慢？
我连接了一个greenplum，我发现pdo太慢了我的测试脚本是这样的 = '2017-01-17' and date query($sql); $end = microtime(true); #v
hadoop - 向 Greenplum 物理表中插入数据
我正在尝试将数据从 Greenplum 外部表插入到物理(或普通表)表中。外部表指向一个包含大约 1.32 亿数据的配置单元文件。但是，当我的外部表显示只有 6600 万的计数时。结果，当插入物理表时
sql - Greenplum 与 PostgreSQL
支持和反对使用 Greenplum 的论据是什么？而不是 PostgreSQL在 webapp (django) 环境中？我的直觉 react 是更喜欢 PostgreSQL 的开源方法和庞大的知识
postgresql - Greenplum，是否可以将 CSV 导出到远程服务器？
我想知道，是否可以使用 PostgreSQL 将数据从 Greenplum 中的表导出到 CSV 但到远程服务器，或者 CSV 的传输必须手动完成(或通过脚本)。最佳答案 Greenplum 有一个
database - Greenplum 与 Postgres-XL
我正在查看这两个大规模并行数据库:Postgres-XL和 Greenplum . 问题是，我不知道如何在它们之间做出选择，因为它们看起来都一样:都是开源的，基于 PostgreSQL，都使用 MPP
postgresql - Greenplum 数据库没有动态扩展到我们的 Linux 系统
这种情况下的主要困难是来自 Greenplum 数据库的磁盘空间不足错误。我们在 Amazon Linux 机器上运行 Greenplum 数据库 4.2.0.0。调查显示如下: 1) Greenp

首页

博学

6Ren·AI

商城

greenplum - 什么时候应该使用 Greenplum 数据库而不是 HAWQ？