gpt4 book ai didi

hadoop - SequenceFile替代/扩展,允许就地更新

转载 作者:行者123 更新时间:2023-12-02 20:10:07 24 4
gpt4 key购买 nike

我喜欢数据库的便利性,您可以在其中更新行到位。但是Hadoop依赖于能够并行使用的序列文件。

我喜欢HBase的想法,在这里我只能重写一行;以及输入到 map 缩减作业中。但是HBase并不是newb必须解决的问题,对吗?有什么好的工具/方法吗?

最佳答案

我认为学习和使用HBase并不困难。

来到你原来的问题。我们使用HBase的原因与使用其他任何DB(即random, real-time read/write access)的原因相同,HDFS与其他任何FS一样缺少该数据库。这适用于任何文件系统,而不仅仅是HDFS。您可以以ext4和MySQL范例为例。

当您说在HBase中重写时,实际上并没有更新。您可以将一个单元格的new version或一个单元格的delete和新数据的put放在同一位置。

而且,您不能说Hadoop依靠序列文件为您提供并行性。 Hadoop凭借其本质提供了并行性,即distributed platform。您可以使用具有几乎正常并行性的Hadoop处理几乎任何类型的文件。序列文件的唯一优点是它们更适合MapReduce processing,因为它们已经在key/vale pairs中。

您必须花点时间,但是坦率地说,Hadoop无法理解更新。如果您可以详细说明用例,也许我可以提出更好的建议。

关于hadoop - SequenceFile替代/扩展,允许就地更新,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17081964/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com