gpt4 book ai didi

hadoop - 在 hdfs 文件上运行 awk 脚本并将结果文件保存在 hdfs 中

转载 作者:行者123 更新时间:2023-12-02 19:13:35 25 4
gpt4 key购买 nike

我在 hdfs 中有一个文件,我需要在其上运行 awk 脚本。然后我会将结果保存在另一个 hdfs 位置。
一种方法是在本地下载 hdfs 文件,然后运行 ​​awk 操作。
另一种方法是将 hdfs 文件上 cat 的结果通过管道传输到 awk。

有没有办法将此责任委托(delegate)给 map-reduce 框架,因为这些文件非常庞大并且有数百万条记录。

我发现这篇关于使用 Hadoop 流的文章,但我找不到流 jar。
https://dzone.com/articles/using-awk-and-friends-hadoop

最佳答案

当然,您可以使用 MapReduce(或理想情况下的 Spark)来读取文件,并根据需要对其进行处理。
hadoop-streaming可以运行awk ,但我怀疑是否有关于使用该代码与“实际”代码的深入示例。

关于hadoop - 在 hdfs 文件上运行 awk 脚本并将结果文件保存在 hdfs 中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59928303/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com