hadoop - reducer 的输出发送到 HDFS，其中 map 输出存储在数据节点本地磁盘中？-6ren

hadoop - reducer 的输出发送到 HDFS，其中 map 输出存储在数据节点本地磁盘中？

转载作者：可可西里更新时间：2023-11-01 15:02:48

25

4

我对 HDFS 存储和数据节点存储有点困惑。以下是我的疑惑。

Map 函数输出将保存到数据节点本地磁盘，reducer 输出将发送到 HDFS。众所周知，数据 block 存储在数据节点本地磁盘中有没有数据节点中可用于 HDFS 的其他磁盘空间？？
reducer 输出文件 (part-nnnnn-r-00001) 的物理存储位置是什么？它会存储在名称节点硬盘中吗？

所以我假设数据节点是 HDFS 的一部分，我假设数据节点本地磁盘也是 HDFS 的一部分。

问候苏雷什

最佳答案

您必须知道虚拟概念和实际存储之间的区别。HDFS(Hadoop 分布式文件系统)只是指定数据将如何存储在数据节点中。当您说将文件存储在 HDFS 中时，这意味着它实际上将被视为 HDFS 文件，但实际上存储在数据节点的磁盘中。

让我们详细看看它是如何工作的:

HDFS 作为 block 结构文件系统:它将单个文件分成固定大小(默认为 64 MB)的 block 。这些 block 存储在由一个名称节点和多个数据节点组成的机器集群中。
nameNode 处理元数据结构(例如，文件和目录的名称)并控制对文件的访问它还执行打开/关闭/重命名等操作。要打开文件，客户端会联系 NameNode 并检索组成文件的 block 的位置列表。这些位置标识了保存每个 block 的DataNodes。然后客户端直接从 DataNode 服务器读取文件数据，可能是并行的。 NameNode 不直接参与此批量数据传输，从而将其开销保持在最低水平。
DataNodes 将负责服务读/写请求和 block 创建/删除/复制。所以HDFS系统中的每一个 block 实际上都存储在dataNode中。

关于hadoop - reducer 的输出发送到 HDFS，其中 map 输出存储在数据节点本地磁盘中？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23218251/

25

4

0

文章推荐： c++ - 一个简单的cuda编译出错

文章推荐： c++ - 类组件的初始化顺序

文章推荐： c++ - C++ 标准对堆栈溢出有何规定？

文章推荐： java - 可迭代到 ArrayList 元素更改

ios - 如何从 Node js 发送 voip 推送通知？我可以从 curl 发送 voip 推送，但不能从 Node 发送
我正在使用 voip 推送通知制作 ios 应用程序。我想从 Node js 发送 voip 推送通知，但不是很好。我阅读了本教程 CallKit iOS Swift Tutorial for V
C套接字编程，发送
我编写了一个服务器，当浏览器尝试连接到某些站点时，它会检查黑名单并发回 404，但是当我调用 send() 时没有错误，但消息不会出现在网络上浏览器，除非我关闭连接？有什么建议吗？接受来自浏览器的
发送 EOF 后无法读取任何内容？
#include int main() { char c = getchar(); //EOF (ctrl + d ) while( ( c = getchar() ) != '?'
powershell - 发送-替换HTML电子邮件
我正在尝试使用MailMessage对象通过PowerShell发送电子邮件。该脚本使用Import-CSV来使用文件，然后在电子邮件正文中使用ConvertTo-HTML。由于我要发送的电子邮件客户
Powershell - 发送/接收的字节数
我需要创建一个脚本，每 30 秒对网络流量进行一次采样并存储发送/接收的字节。该数据随后用于绘制图形。我编写了一个在 Windows 2012 上完美运行的程序，但我意识到某些 cmdlet 在以前的
AutoIt:发送 ("{DOWN}")不起作用
我正在运行“autoit3.chm”文件。当它运行时，我想发送一个向下键箭头，但它不起作用: $file = FileGetShortName("C:\Users\PHSD100-SIC\Deskto
c - 发送()问题
当我使用网络浏览器测试我的程序时，我可以很好地写入套接字/FD，所以我决定循环它并在连接中途切断连接，我发现了一个问题。 send() 能够在套接字不可用时关闭整个程序。我认为问题在于该程序陷入了第
AutoIt:发送 ("{DOWN}") 不工作
我正在运行“autoit3.chm”文件。当它运行时，我想发送一个向下键箭头，但它不起作用: $file = FileGetShortName("C:\Users\PHSD100-SIC\Deskto
java - 发送/接收数据出现问题
所以我试图向自己发送数据并接收数据然后打印它，现在我已经测试了一段时间，我注意到它没有发送任何东西，事实上，也许它是，但我没有正确接收它，我需要这方面的帮助。这就是我用来发送数据的
java - 发送/序列化对象的最佳实践
问题:开发人员创建自己的序列化格式有多常见？具体来说，我使用 java 本质上将对象作为一个巨大的字符串发送，并用标记来分隔变量。我的逻辑:我选择这个是因为它几乎消除了语言依赖性(忽略java的修改
ethernet - 发送/接收原始以太网帧
我必须在 Linux 上编写一个应用程序，该应用程序需要与具有自定义以太网类型的设备进行通信。甚至在如何编写这样的应用程序中也有很多解决方案。一个缺点是需要 root 访问权限(AFAIK)。之后释放
javascript - 单选按钮值在提交表单时作为 "on"发送
我有一个包含三个单选按钮选项的表单。我需要将表单数据提交到另一个文件，但由于某种原因，发送的数据包含所选单选按钮的值“on”，而不是 value 属性的值。我尝试通过 post() 函数手动操作和发
c - 如何使具有两个线程的两个进程在MPI中相互接收、发送？
基本上我想实现这样的目标: Process 1 Thread 1 Receive X from process 2 Thread 2 Receive Y from proces
java - 发送 session
我目前正在 Google App Engine 上开发一个系统，对它还很陌生，我正在使用 Java 平台进行开发。我在 servlet 之间发送 session 对象时遇到问题。我已经在 appeng
javascript - 发送 $(this) 作为参数
当我尝试将“this”(触发的元素)作为参数发送给函数时，函数收到“Object[Document build.php]”作为参数，而不是触发的元素。请让我知道我的错误: function set(a
android 响应联系人 > 发送？
我正在寻找让我的应用响应联系人 > 发送的魔法咒语。我希望能够接收联系人的 URI 以便检索联系人。谁有 list 过滤器/代码 fragment 吗？最佳答案我没有睾丸，但您可以尝试基于 ACT
c++ - 发送/接收套接字阻塞问题
关于我心爱的套接字的另一个问题。我先解释一下我的情况。之后我会告诉你是什么困扰着我。我有一个客户端和一个服务器。这两个应用程序都是用 C++ 编写的，实现了 winsock2。连接通过 TCP 和
C 发送/返回带有函数的数组
我看到了这篇文章 http://www.eskimo.com/~scs/cclass/int/sx5.html 但这部分让我感到困惑:如果我们已经使用 send_array 或 send_array_
c - 发送:无效参数
我对这行代码有疑问。我必须将一个数据包带到一个端口并重新发送到接口(interface)(例如:eth0)。我的程序成功地从端口获取数据包，但是当我重新发送(使用 send())到接口(interfa
发送 X11 鼠标事件的正确方法
我正在尝试编写一个 X11 输入驱动程序，它可以使用我的 Android 手机上的触摸屏来移动和单击鼠标。我可以正常移动鼠标，但我无法让应用程序正确识别点击。我当前的代码位于 https://gist

首页

博学

6Ren·AI

商城

hadoop - reducer 的输出发送到 HDFS，其中 map 输出存储在数据节点本地磁盘中？