gpt4 book ai didi

mysql - 如何有效地将 hadoop 与大型 MySQL 数据库一起使用?

转载 作者:可可西里 更新时间:2023-11-01 16:58:22 24 4
gpt4 key购买 nike

我对 hadoop 和 MapReduce 比较陌生,但我想用它来分析大量数据。数据代表大约 1 GB 的棒球统计数据,全部存储在 MySQL 数据库中。我知道 hadoop 是围绕将代码带到数据而不是相反的想法构建的,因此传统数据库通常不能很好地与 hadoop 一起工作。不过,我做了一些研究,看起来 Sqoop 可能满足我的需要。以下是我的几个问题:

  • 1 GB 的数据是否足以保证使用 MapReduce 框架?或者它是否足够小以能够顺序处理?
  • 我怎样才能最有效地处理这些数据?我应该使用 Sqoop 插件还是尝试重组数据?
  • 我可以通过使用 hadoop 获得什么样的性能提升?

最佳答案

如果您能够在单台机器的主内存中存储和处理所有数据,那么在多台机器之间拆分数据就没有意义。

有讨论here关于你在问什么。

因此,我认为 MapReduce 处理 1 GB 数据有点过分了。没错,数据库很适合从更大的数据集中选择少量数据(前提是您有正确的索引),但如果您需要处理所有 可用数据,数据库可能效果不佳。但同样,如果您拥有正确的数据库模式和正确的索引,那么您将能够使用现有的 MySQL 数据服务器非常有效地分析您的数据。

另一种情况 - 您想要学习 MapReduce 并可能期望获得更多数据。那么 Sqoop 真的很有意义。

关于mysql - 如何有效地将 hadoop 与大型 MySQL 数据库一起使用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27156710/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com