gpt4 book ai didi

Hadoop HDFS 和序列文件

转载 作者:可可西里 更新时间:2023-11-01 15:03:15 25 4
gpt4 key购买 nike

我又想到了一个非常基本的概念级别的问题,HDFS 和各种文件格式之间有什么区别和关系——序列文件(基于它的映射文件)、HAR 文件?

我想答案是,HDFS是基础文件系统,我们可以把原始的二进制文件上传到HDFS(不用序列文件,HAR文件等),也可以用一些特殊设计的文件格式来写基于 HDFS 的文件——如序列文件(基于它的 map 文件)格式、HAR 文件格式。这样理解对吗?

最佳答案

HDFS 是一个文件系统,不依赖于任何特定的文件格式。它是一个分布式文件系统,并抽象出关于文件如何实际保存在磁盘上的大部分内部细节(就像 NFS/FAT)。它为我们提供了文件和目录结构的连续 View ,但在内部,文件实际上被复制并存储在集群中各个节点的 block 中。

序列文件等文件格式特别适合 map reduce 编程范例,因为它可以轻松地跨数据节点拆分,从而实现并行处理。然而,HDFS 没有这种偏好,它可以将任何文件格式分成 block (即二进制/纯文本)并存储。

关于Hadoop HDFS 和序列文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13657548/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com