gpt4 book ai didi

hadoop - 在包含连接的表上执行增量 Sqoop?

转载 作者:可可西里 更新时间:2023-11-01 15:26:07 26 4
gpt4 key购买 nike

我有一些非常大的表,我正试图将它们从源系统数据仓库 sqoop 到 HDFS,但这样做的带宽有限。我只想拉出我需要的列,并尽量减少让表格站起来的运行时间。

sqoop 目前拉取了这样的东西:

SELECT
ColumnA,
ColumnB,
....
ColumnN
FROM
TABLE_A
LEFT JOIN
TABLE_B
ON
...
LEFT JOIN
TABLE_N
....

假设数据以星型模式格式存储,并且维度可以独立于事实更新,是否可以执行增量 sqoop?

或者,对于我需要的列,增量地对整个表进行 sqoop 并在 HDFS 端执行连接的唯一解决方案是什么?

最佳答案

对于增量导入,您需要使用 --incremental 标志。请引用以下链接了解更多信息:-

https://sqoop.apache.org/docs/1.4.2/SqoopUserGuide.html#_incremental_imports

您需要指定 —incremental 来告诉 sqoop 您想要增量加载 —check-column 来指定哪个列用于增量 sqooping,以及 —last-value 来说明您希望从哪个值开始 sqooping 下一次加载。这只是图片的一半。有更多方法可以做到这一点。例如。您可以使用 —query 选项,您的查询类似于 Select * from table where column > 123。这基本上是同一回事。您需要记录所选列的最后一个/最大值并将其用于下一次导入。

关于hadoop - 在包含连接的表上执行增量 Sqoop?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47267993/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com