gpt4 book ai didi

hadoop - NFS 而不是 HDFS

转载 作者:行者123 更新时间:2023-12-02 18:58:19 26 4
gpt4 key购买 nike

HDFS 是 Hadoop 的核心,我明白这一点。但是,如果我不想将数据存储在 HDFS 上怎么办。相反,我想对存储在可通过 NFS 协议(protocol)访问的远程服务器上的数据进行分析和运行 Hadoop 作业?我该怎么做?

例如,我想使用 NFS 服务器上的数据运行 Teragen,如下所示:

hadoop jar hadoop-mapreduce-examples.jar teragen 1000000000 nfs://IP/some/path

我只是在寻找有关如何执行此操作的想法,并且我确实了解所有这一切的影响(HDFS 与 NFS)。所以,虽然我很感激有人告诉我这是个坏主意,但我仍然想为我正在尝试的一些实验做这件事。

我也许可以编写一些代码来实现这一点,但我需要开始的任何指示都会有所帮助并且非常感谢。我也不想重新发明轮子。所以,如果我不知道这样的事情已经存在,请发表评论并让我知道。我构建的任何东西都将开源,以便其他人也能从中受益。

最佳答案

你知道这个网站吗: https://blog.netapp.com/blogs/run-big-data-analytics-natively-on-nfs-data/

看起来您可以在底部将 HDFS 与 NFS 交换,而在更高的抽象层,一切都像以前一样工作,因为 MapReduce/YARN 将为您处理一切。

我不能说这是否有效,因为我们目前正准备建立这样一个“本地 NFS hadoop”。几个月后我会向您提供更多详细信息。

关于hadoop - NFS 而不是 HDFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55753053/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com