mysql - Hadoop(+HBase/HDFS)与 Mysql(或 Postgres)——要处理和查询的独立结构化数据负载-6ren

mysql - Hadoop(+HBase/HDFS)与 Mysql(或 Postgres)——要处理和查询的独立结构化数据负载

转载作者：可可西里更新时间：2023-11-01 06:29:17

24

4

你好，在 SO，

我想听听尊敬的各位对以下内容的一些想法/评论。

我有 100M 条记录需要处理。我有 5 个节点(在岩石集群中)来执行此操作。数据非常结构化，非常适合关系数据模型。我想并行处理事情，因为我的处理需要一些时间。

在我看来，我有两个主要选择:

在每个节点上安装mysql，每个节点放20M条记录。使用头节点将查询委托(delegate)给节点并聚合结果。 Query Capabilities++，但在选择分区策略等方面我可能会有些头疼(问:这就是他们所说的 mysql/postgres 集群吗？)。真正糟糕的是记录的处理现在由我来处理(如何跨机器分发等)...

或者安装 Hadoop、Hive 和 HBase(请注意，这可能不是存储我的数据的最有效方式，因为 HBase 是面向列的)并仅定义节点。我们用 MapReduce 范式编写所有内容，然后，砰的一声，我们从此过上了幸福的生活。这里的问题是我们失去了“实时”查询功能(我知道你可以使用 Hive，但不建议实时查询 - 我需要) - 因为我有时也有一些正常的 sql 查询要执行“select * from wine where color = 'brown'”。

请注意，理论上 - 如果我有 100M 台机器，我可以立即完成整个操作，因为对于每条记录，处理过程都是独立于其他记录的。另外 - 我的数据是只读的。我不认为会发生任何更新。我不需要/想要一个节点上的 100M 记录。我不希望有冗余数据(因为有很多)所以将它保存在 mysql/postgres 和 Hadoop/HBase/HDFS 中。不是真正的选择。

非常感谢

最佳答案

你能证明MySQL是瓶颈吗？ 100M 条记录并不多，看起来您没有执行复杂的查询。在不知 Prop 体是哪种处理的情况下，以下是我将按以下顺序执行的操作:

将 100M 保留在 MySQL 中。查看 Cloudera 的 Sqoop 实用程序，从数据库导入记录并在 Hadoop 中处理它们。
如果 MySQL 是 (1) 中的瓶颈，请考虑设置从复制，这将使您并行读取，而无需分片数据库的复杂性。由于您已经声明不需要写回数据库，因此这应该是一个可行的解决方案。您可以根据需要将数据复制到任意数量的服务器。
如果您正在从数据库运行复杂的选择查询，并且 (2) 仍然不可行，请考虑使用 Sqoop 导入您的记录并在 Hadoop 中执行您需要的任何查询转换。

在你的情况下，除非绝对必要，否则我会抵制跳出 MySQL 的诱惑。

关于mysql - Hadoop(+HBase/HDFS)与 Mysql(或 Postgres)——要处理和查询的独立结构化数据负载，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4884967/

24

4

0

文章推荐： mysql - 将数据从一个表复制到另一个表并添加其他数据

文章推荐： ios - 模态视图不覆盖整个屏幕

独立；获取方法的参数
我如何使用 CQLINQ 获取当前方法的输入参数集合？有像“参数”或“参数”这样的集合，只有“NbParamenter”不适合我的目的。最佳答案事实上，CQLinq 还没有这个功能。但是，在许多情
makefile 独立@符号和目录关键字
我想知道是否有人知道我的 makefile 中独立的 @ 符号和“dir”命令在这里(第二行和第三行)的作用: $(BUILD)/%.o: %.cpp @mkdir -p $(dir $@)
makefile 独立@符号和目录关键字
我想知道是否有人知道我的 makefile 中独立的 @ 符号和“dir”命令在这里(第二行和第三行)的作用: $(BUILD)/%.o: %.cpp @mkdir -p $(dir $@)
java - Spark 独立
我的机器上有带有 4 个 cpu 的 Ubuntu 14.04(nproc 恢复了 4 个)。我安装并执行 Spark Standalone 后(本地)，我可以自己定义不同数量的奴隶。例如我想要有4个
C# 独立 WebDAV
我看到所有这些 iPhone 应用程序都带有内置的独立 webDav 服务器。是否有可以集成到现有应用程序中的独立(如在其自己的 IIS 中)C# webDAV 项目。最佳答案至少有两个用于 .N
django - 独立 Django 应用程序中的迁移
我如何在独立的 Django 应用程序上进行迁移(即不属于任何项目的应用程序)。例如在以下之后:https://docs.djangoproject.com/en/1.8/intro/reusabl
svn - 独立 SVN 查看器
我目前正在使用 tortoiseSVN 对本地编程文件进行版本控制。我不运行 SVN 服务器，因为可以直接使用 tortoiseSVN(例如 http://invalidlogic.com/2006/
javascript - 如何在Bootstrap中为*独立*几个进度条部分设置动画？
我有一些 Bootstrap 代码，当用户查看它时，它可以很好地为进度条部分设置动画。然而它动画全部页面中的进度条而不是动画仅限该查看部分中的进度条。结果，当用户转到进度条的另一部分时，这些已
iOS 独立 PWA 输入捕获
我认为我们在 iOS 13.2/13.3 中发现了关于在独立模式下运行的 PWA 的回归。由于在 iOS PWA 上无法访问 getUserMedia() 我们依赖 capture HTML5 输入
excel - 独立 Excel 宏
我有一个每周从系统运行一次的报告，并将数据导出到 Excel 文档中。我已经设置了将数据导出到 Excel 的工具，以便在格式化方面做得很好，但是一旦数据进入 Excel，我还需要做更多的事情。是否
java - 独立(并行)替换字符串中的一组子字符串
//值数组的格式为 { "var1", "val1", "var2", "val2",.. } public static String replaceMethod(String template,
java - 独立 jar 滞后
当我在 eclipse 中运行我的项目时，它工作正常，当我将它导出为独立 jar 时，它会滞后。我使用相同的 vmargs，在 Eclipse 中尝试了 3 种不同的导出设置，似乎没有任何帮助最佳答
java - 独立 Java 程序中的注释基础配置
我了解到 Java EE 中我非常喜欢的注释基础配置(@Resource)功能。然后我注意到注释实际上是 Java SE 的一部分。所以我想知道是否可以将它与 Java SE 一起使用。我当然可以在
java - jpa + hibernate + 独立
我无法理解为什么这种关系没有被持久化，并且程序不会正常退出，但在 Eclipse 中继续运行。下面是我的代码，排除了包名: 主要: import java.io.BufferedInputStrea
java - 独立 java 应用程序的线程转储
我有一个在 Linux + Java 6 上运行的独立 Java 应用程序，它似乎被卡住了(没有生成日志)我如何在不使用任何其他工具(例如 jstack)的情况下获取此线程转储尝试了以下命令，但它们
javascript - 独立 Babel 和使用箭头函数插件？
我正在非节点环境中构建应用程序，但我想利用 Babel 的 ES6 转译，以便我可以编写更好的代码并且仍然支持 IE11。所以我继续包含在这里找到的独立文件: https://github.com/
MySQL 64 位？独立？
扩展我对 MySQL 的理解。 1) 是否需要 64 位帮助？我是安装还是单独使用？ 2) 如果我打算在 MySQL Community Service 中使用 64 位，它会影响仅提供 32 位的
java - 独立 Java 应用程序的规则引擎
我有一个独立的 Java 应用程序，我必须为其集成一个规则引擎。我应该使用属性文件或 XML 文件定义规则。我需要规则引擎来读取属性或 XML 文件中定义的这些规则，并相应地在应用程序中实现代码。任
java - 独立 Wiremock + 使用的端口
我是wiremock新手，我正在尝试使用它来记录我负责集成测试的java应用程序的请求和响应。我知道我的命令将类似于: java -jar wiremock-1.57-standalone.jar
android - 独立 RadioGroup 列表
我到处寻找我的问题的解决方案，但我的问题有点具体...我需要有关如何创建独立 radioGroup 列表的建议，例如图示: o item1 • item1' • item2 或 item2' o it

首页

博学

6Ren·AI

商城

mysql - Hadoop(+HBase/HDFS)与 Mysql(或 Postgres)——要处理和查询的独立结构化数据负载