gpt4 book ai didi

mysql - 将数据从 MySQL 拉入 Hadoop

转载 作者:可可西里 更新时间:2023-11-01 07:01:01 27 4
gpt4 key购买 nike

我刚刚开始学习 Hadoop,我想知道以下问题:假设我有一堆我想要分析的大型 MySQL 生产表。

  1. 似乎我必须将所有表转储到文本文件中,以便将它们带入 Hadoop 文件系统——这是否正确,或者是否有某种方法可以让 Hive 或 Pig 或其他任何东西直接从 MySQL 访问数据?
  2. 如果我将所有生产表转储到文本文件中,我是否需要担心转储期间会影响生产性能? (这是否取决于表使用的存储引擎?如果是这样我该怎么办?)
  3. 将每个表转储到一个文件中,还是将每个表拆分为 64mb(或任何我的 block 大小)文件更好?

最佳答案

从mysql中导入数据非常容易。我建议您使用 Cloudera 的 hadoop 发行版,它带有名为“sqoop”的程序,它提供了非常简单的界面,可以直接从 mysql 导入数据(也支持其他数据库)。Sqoop 可以与 mysqldump 或普通的 mysql 查询一起使用 (select * ...)。使用此工具,无需手动将表分区为文件。但是对于 hadoop 来说,拥有一个大文件要好得多。

有用的链接:
Sqoop User Guide

关于mysql - 将数据从 MySQL 拉入 Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3074836/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com