gpt4 book ai didi

hadoop - 如何增加 Sqoop 作业中的映射器数量

转载 作者:可可西里 更新时间:2023-11-01 16:35:57 26 4
gpt4 key购买 nike

我正在尝试使用 Sqoop 将数据从 S3 加载到 RDS。我在 70 个不同的文件中有大约 35 GB 的 gzip 文件。

这是我运行的命令

sqoop export 
--connect jdbc:mysql://a205067-pppp-ec2rds.abcd.us-east-1.rds.amazonaws.com/tprdb
--username user
--password password
--table DnB_WB_UniverseMaster
--export-dir s3://pppp-sukesh/FullFiles/
--fields-terminated-by '|'
--num-mappers 500
--direct
--default-character-set=latin1

dunsnumber 是我的主键

问题是导出非常非常慢,我能看到的映射器数量只有 4 个。

为了加快加载速度,我可以在这里做些什么优化。

我还有 EMR 集群 10 m4.large

最佳答案

尝试在 m 参数中只使用一个破折号:-m 20--num-mappers 20

关于hadoop - 如何增加 Sqoop 作业中的映射器数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52852150/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com