gpt4 book ai didi

hadoop - 由于任务超时,Sqoop 导入作业失败

转载 作者:可可西里 更新时间:2023-11-01 14:41:43 24 4
gpt4 key购买 nike

我尝试使用 sqoop 将 MySQL 中的 1 TB 表导入到 HDFS。使用的命令是:

sqoop import --connect jdbc:mysql://xx.xx.xxx.xx/MyDB --username myuser --password mypass --table mytable --split-by rowkey -m 14

执行 bounding vals 查询后,所有映射器启动,但一段时间后,任务因超时(1200 秒)而被终止。我认为这是因为在每个mapper中运行select查询所花费的时间超过了设置的超时时间(在sqoop中似乎是1200秒);因此它无法报告状态,任务随后被终止。 (我也尝试过 100 GB 数据集;由于多个映射器超时,它仍然失败。)对于单个映射器导入,它工作正常,因为不需要过滤结果集。在 sqoop 中使用多个映射器时,有什么方法可以覆盖映射任务超时(比如将其设置为 0 或非常高的值)?

最佳答案

Sqoop 使用特殊的线程来发送状态,这样 map 任务就不会被 jobtracker 杀死。我有兴趣进一步探讨您的问题。您介意共享 sqoop 日志、 map task 日志之一和您的表模式吗?

亚尔塞克

关于hadoop - 由于任务超时,Sqoop 导入作业失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14681205/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com