gpt4 book ai didi

hadoop - 从远程 HDFS 检索文件

转载 作者:可可西里 更新时间:2023-11-01 14:15:04 29 4
gpt4 key购买 nike

我的本​​地机器没有安装 hdfs。我想从远程 hdfs 集群中检索文件。实现这一目标的最佳方法是什么?我是否需要从 hdfs get 文件到其中一台集群机器 fs,然后使用 ssh 检索它们?我希望能够通过 bash 脚本以编程方式执行此操作。

最佳答案

步骤如下:

  • 确保您的主机和目标集群之间存在连接
  • 将您的主机配置为客户端,您需要安装兼容的 hadoop 二进制文件。此外,您的主机需要使用相同的操作系统运行。
  • 确保您拥有相同的配置文件(core-site.xml、hdfs-site.xml)
  • 您可以运行 hadoop fs -get命令直接获取文件

还有其他选择

  • 如果配置了 Webhdfs/httpFS,您实际上可以使用 curl 甚至您的浏览器下载文件。如果配置了 Webhdfs,您可以编写 bash 脚本。

如果您的主机无法安装 Hadoop 二进制文件作为客户端,那么您可以使用以下说明。

  • 启用从主机到集群节点之一的无密码登录
  • 运行命令ssh <user>@<host> "hadoop fs -get <hdfs_path> <os_path>"
  • 然后scp命令复制文件
  • 您可以在一个脚本中包含上述 2 个命令

关于hadoop - 从远程 HDFS 检索文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34305317/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com