gpt4 book ai didi

python - 如何使用python API Pydoop从Hadoop集群中获取实际数据(在缩小 map 后)?

转载 作者:行者123 更新时间:2023-12-02 20:29:03 26 4
gpt4 key购买 nike

我正在使用python API(pydoop)映射缩减HDFS文件,但我想知道如何使用pydoop或使用python的任何其他技术来检索原始数据。

最佳答案

MapReduce应用程序(使用Pydoop或通过标准Hadoop Java API运行)将其输出写入用户指定的目录中,为每个reduce任务创建一个文件(或在仅map作业的特殊情况下为每个map任务创建一个文件):part-r-00000part-r-00001等。您可以使用Pydoop的HDFS API查找这些文件并读取其内容:

import pydoop.hdfs as hdfs

MR_OUT_DIR = "hdfs://localhost:9000/user/foo/mr_output"

data = []
for path in hdfs.ls(MR_OUT_DIR):
if hdfs.path.basename(path).startswith("part-"):
with hdfs.open(path) as f:
data.append(f.read())

关于python - 如何使用python API Pydoop从Hadoop集群中获取实际数据(在缩小 map 后)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54564989/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com