gpt4 book ai didi

oracle - 如何将大表从 oracle db 到 hdfs?

转载 作者:行者123 更新时间:2023-12-02 20:22:09 25 4
gpt4 key购买 nike

我的一个 Oracle 表包含 2.65 亿条记录,我需要将该表从 Oracle 数据库推送到 hdfs,但该表没有任何主键/唯一列。因此,我不能使用多个映射器。如果我使用多个映射器,我必须指定按列拆分。
什么是sqoop table 的最佳方式。
任何线索表示赞赏。

最佳答案

为了使用多个映射器,您需要一个 --split-by范围。最好选择的列是在所有 265m 行中不为空且分布均匀的列。主键符合该标准,因为它是顺序的并且在所有行中。

任何在数据集中均匀分布的列都可能是 --split-by 的不错选择。选择。 @yammanuruarun 发布的链接包括 --boundary-query参数来帮助限制 RDBMS 必须执行的返回这些行的工作。我建议为您的 -m 使用斐波那契数列1,2,3,5,8。

另外,请查看:
How to find optimal number of mappers when running Sqoop import and export?

关于oracle - 如何将大表从 oracle db 到 hdfs?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59762295/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com