gpt4 book ai didi

hadoop - 何时将本地系统中的文件移至HDFS

转载 作者:行者123 更新时间:2023-12-02 20:38:46 26 4
gpt4 key购买 nike

我是Hadoop的新手,所以如果我的问题很琐碎,请原谅。

  • 本地文件系统是否不同于HDFS。
  • 在创建mapreduce程序时,我们使用fileinputformat.addInputPath()函数来归档输入文件路径。它将数据拆分为多个数据节点,并且还执行输入拆分吗?如果是,此数据将在datanode中保留多长时间?我们可以将mapreduce程序写入HDFS中的现有数据吗?
  • 最佳答案

    1:HDFS实际上是分布式存储的解决方案,本地化存储空间中将有更多的存储上限和备份问题。 HDFS是整个服务器群集存储资源,通过nameNode存储目录和块信息管理,dataNode负责块存储容器。 HDFS可以看作是更高级别的抽象本地化存储,可以通过解决分布式存储的核心问题来理解。

    2:如果我们使用hadoop fileinputformat,则首先创建open ()filesystem方法,并与namenode建立连接以获取位置消息,然后将这些消息返回给客户端。然后创建一个fsdatainputstream以从一个不同的节点一一读取..最后,关闭fsdatainputstream
    如果我们将数据放入hdfs客户端,则数据将被拆分为多个数据并在不同的计算机中存储(大于128M [64M])
    数据持久性存储在硬盘上

    因此,如果文件超出了普通服务器的压力,并且需要分布式计算,则可以使用HDFS

    关于hadoop - 何时将本地系统中的文件移至HDFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50284815/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com