gpt4 book ai didi

hadoop - 如何将存储在另一台(非分布式)服务器上的HDFS文件中的数据存档?

转载 作者:行者123 更新时间:2023-12-02 19:54:51 24 4
gpt4 key购买 nike

我有一个项目文件夹包含大约。在 hadoop集群( CDH 5.14 )上,需要50 GB的 Parquet 文件(我需要存档移至,将移至),而另一台Linux (带有Linux发行版的idit_rstrong或非Windows主机)也可以。这只是一次作业-我不打算很快将数据带回HDFS,但是应该有一种方法将其部署回到分布式文件系统。最佳的方式是什么?不幸的是,我没有另一个可放置此数据的Hadoop集群或云环境。
我将不胜感激。

最佳答案

最佳解决方案可能取决于实际数据(例如表格,许多/很少的平面文件)。如果您知道他们是如何到达那里的,那么看看相反的方向可能是合乎逻辑的第一步。

例如,如果仅使用put放置文件,请考虑使用get

如果您使用Nifi进行导入,请尝试使用Nifi进行导出。

将数据放在Linux机器上之后,您可以使用SCP或类似FTP的方法或已安装的驱动器将其移动到所需的计算机上。

关于hadoop - 如何将存储在另一台(非分布式)服务器上的HDFS文件中的数据存档?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58272052/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com