gpt4 book ai didi

hdfs - 为什么HDFS是一次写入多次读取?

转载 作者:行者123 更新时间:2023-12-04 10:26:14 31 4
gpt4 key购买 nike

我是Hadoop的新手。

在阅读 Apache HDFS 时,我了解到 HDFS 是一次写入文件系统。其他一些发行版 (Cloudera) 提供附加功能。了解这个设计决策背后的理性是件好事。在我看来,这种设计对 Hadoop 造成了很多限制,使其适用于有限的问题集(类似于日志分析的问题)。

专家评论将帮助我更好地理解 HDFS。

最佳答案

HDFS 对其文件和应用程序遵循一次写入、多次读取的方法。它假定 HDFS 中的文件一旦写入就不会被修改,尽管它可以被访问“n”次(尽管 future 的 Hadoop 版本也可能支持这个特性)!目前,HDFS 中任何时候都严格有一个 writer。这种假设可以实现高吞吐量数据访问,还可以简化数据一致性问题。网络爬虫或 MapReduce 应用程序最适合 HDFS。

由于 HDFS 的工作原理是“一次写入,多次读取”,因此流式数据访问的特性在 HDFS 中极为重要。因为 HDFS 更多地是为批处理而不是用户交互使用而设计的。重点是数据访问的高吞吐量,而不是数据访问的低延迟。 HDFS 的重点不是存储数据,而是如何以尽可能快的速度检索数据,尤其是在分析日志时。在 HDFS 中,读取完整数据比从数据中获取单个记录所花费的时间更重要。 HDFS 忽略了一些 POSIX 要求以实现流数据访问。

http://www.edureka.co/blog/introduction-to-apache-hadoop-hdfs/

关于hdfs - 为什么HDFS是一次写入多次读取?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15675312/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com