gpt4 book ai didi

hadoop - 将 Spark 的输出合并到一个文件中

转载 作者:可可西里 更新时间:2023-11-01 14:47:03 28 4
gpt4 key购买 nike

我知道我的问题类似于 Merge Output files after reduce phase ,但是我认为它可能有所不同,因为我仅在本地计算机上使用 Spark 而不是分布式文件系统。

我在单个虚拟机上安装了 Spark(用于测试)。输出在 Home/Spark_Hadoop/spark-1.1.1-bin-cdh4/中名为“STjoin”的文件夹中的多个文件(part-000000、part-000001 等...)中给出。

命令 hadoop fs -getmerge/Spark_Hadoop/spark-1.1.1-bin-cdh4/STjoin/desired/local/output/file.txt 似乎不起作用(“没有这样的文件或导演”)

这是因为此命令仅适用于存储在 HDFS 而不是本地的文件,还是我不了解一般的 linux 地址? (我是 linux 和 HDFS 的新手)

最佳答案

只需执行 cat/path/to/source/dir/* >/path/to/output/file.txtgetmerge 是仅适用于 HDFS 文件的 Hadoop 版本。

关于hadoop - 将 Spark 的输出合并到一个文件中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29840320/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com