gpt4 book ai didi

java - 多个mysql表的数据到hadoop mapreduce

转载 作者:可可西里 更新时间:2023-11-01 16:20:12 26 4
gpt4 key购买 nike

我们有以下场景:

我们有一个用 java 实现的 map-reduce 进程链。目前我们正在从一个 mysql 表中读取数据并将输出保存到另一个 mysql 表。现在我们可以需要来自另一个表的数据作为 map/reduce 过程的输入。

可能的解决方案:

a) 要么我们可以有一个连接查询以获取映射过程的输入,要么

b) 我们可以通过建立简单的jdbc 连接 并一次又一次地请求数据来读取所需的数据(虽然,我不喜欢它)。

问题:

在这种情况下,最佳做法是什么?我们将来可能会迁移到 mongoDB。在这种情况下,最佳实践是什么?

最佳答案

SQOOPHIVE可以使用。

您可以使用SQOOP 将数据从mysql 表传输到HDFS,然后再传输到HIVE。从 HIVE(操作后),您可以将表导出回 Mysql。

示例:

  • 首先下载 mysql-connector-java-5.0.8 并将 jar 放到Sqoop的lib和bin文件夹
  • 使用准确的字段名称和类型在 Hive 中创建表定义就像在 mysql 中一样

sqoop import --verbose --fields-terminated-by ',' --connect jdbc:mysql://localhost/test --table employee --hive-import --warehouse-dir /user/hive/warehouse --fields-terminated-by ',' --split-by id --hive-table employee

关注这个Link供引用

关于java - 多个mysql表的数据到hadoop mapreduce,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9533355/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com