gpt4 book ai didi

Hadoop 查找存储选项

转载 作者:可可西里 更新时间:2023-11-01 15:39:01 27 4
gpt4 key购买 nike

我们正计划将我们现有的应用程序迁移到 hadoop。我们目前正在使用许多查找表/文件作为引用。

在 hadoop 生态系统中存储此类表/文件的最佳选择应该是什么

1) 创建 hive/hbase 查找表 加入这个查找文件是否需要单独的 mr 作业?

2) HDFS 文件使用了引用查找

我们还应该根据查找表的大小做出这个决定吗?

最佳答案

选择最佳方案取决于许多因素,例如数据的大小和性质、网络基础设施等。您可以考虑以下选项:

  • 将数据复制到分布式缓存中,以便节点可以加载它到 HashMap 中
  • 在映射器/缩减器中使用键/值存储。例如:Redis, HBase or Voldemort .
    请注意,数据库访问可能会导致巨大性能下降。
  • 将查找数据存储在 HDFS 上,并在需要时将其加入您正在处理的数据集。 Pig ,可以在此处使用 Hadoop 的更高级别抽象。

如果您要使用键值存储,我建议您查看 Voldemort这实际上是一个分布式哈希表。您可以通过一个简单的 Hadoop 作业(read-only store 特性)填充其存储。

关于Hadoop 查找存储选项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19990934/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com