作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的一个 Oracle 表包含 2.65 亿条记录,我需要将该表从 Oracle 数据库推送到 hdfs,但该表没有任何主键/唯一列。因此,我不能使用多个映射器。如果我使用多个映射器,我必须指定按列拆分。
什么是sqoop table 的最佳方式。
任何线索表示赞赏。
最佳答案
为了使用多个映射器,您需要一个 --split-by
范围。最好选择的列是在所有 265m 行中不为空且分布均匀的列。主键符合该标准,因为它是顺序的并且在所有行中。
任何在数据集中均匀分布的列都可能是 --split-by
的不错选择。选择。 @yammanuruarun 发布的链接包括 --boundary-query
参数来帮助限制 RDBMS 必须执行的返回这些行的工作。我建议为您的 -m
使用斐波那契数列1,2,3,5,8。
另外,请查看:
How to find optimal number of mappers when running Sqoop import and export?
关于oracle - 如何将大表从 oracle db 到 hdfs?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59762295/
我是一名优秀的程序员,十分优秀!