gpt4 book ai didi

python - 如何在Hadoop中读取相应文件中的文件名和字数?

转载 作者:行者123 更新时间:2023-12-02 21:42:26 25 4
gpt4 key购买 nike

我试图借助dumbo软件包从hadoop的序列文件中获取文件名。
但这为我提供了某种标识符。如何将此映射到文件名?

以下是我在hadoop系统上获取文件名的步骤:

步骤1)生成序列文件

命令:

hadoop jar /mnt/Clustering/Checking/AllJars/binarypig-1.0-SNAPSHOT-jar-with-dependencies.jar com.endgame.binarypig.util.BuildSequenceFileFromDir /mnt/Clustering/Checking/text_files text_files_seq

步骤2)通过hadoop 在序列文件上运行python脚本

命令:
dumbo start dumbo_map_red.py -input text_files_seq -output out_res -hadoop /usr/local/hadoop

步骤3)在本地目录中获取输出

命令:
dumbo cat out_res/part-* -hadoop /usr/local/hadoop > out_res.txt

其中dumbo_map_red.py是
#!/usr/bin/env python

def mapper(key, value):
yield key, 1

def reducer(key, values):
yield key, sum(values)

if __name__ == "__main__":
import dumbo
dumbo.run(mapper, reducer)

请帮助我知道如何获取文件名。
如果他们是python中的其他软件包,这将允许我以这种方式工作,请告诉我。

最佳答案

最终得到了将序列文件中的标识符映射到实际文件的提示。

标识符是目录中文件的MD5。

关于python - 如何在Hadoop中读取相应文件中的文件名和字数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27774940/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com