gpt4 book ai didi

mysql - 将大量MySQL数据导入Hadoop

转载 作者:可可西里 更新时间:2023-11-01 15:28:34 25 4
gpt4 key购买 nike

我计划使用一个堆栈,该堆栈使用 Hadoop、Hive 和 Impala 来分析大数据。我已准备好设置,现在我正尝试从 MySQL 表导入数据。表大小超过 500 GB,我打算按如下方式使用 Sqoop:

sqoop import --connect jdbc:mysql://remote_host_ip/database_name --username user_name -P --table table_name --hive-import --compression-codec=snappy --as-parquetfile --warehouse-dir=/user/hive/warehouse -m 1

是否有任何其他更好的方法来执行此导入,因为这涉及通过网络传输 500 GB 的数据。是否可以压缩数据并将其导入 Hive,以便使用 Impala 进行查询?

最佳答案

Sqoop 是最好的方法。它在批量加载时非常有效。

一定要阅读 MySQL Hadoop Applier旨在执行 MySQL 和 Hadoop 之间的实时事件复制。

关于mysql - 将大量MySQL数据导入Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39118555/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com