gpt4 book ai didi

python - 我们可以将 Hadoop 与 Python 集成吗?

转载 作者:可可西里 更新时间:2023-11-01 14:46:42 24 4
gpt4 key购买 nike

我有一个项目要求。我正在使用 python 脚本来分析数据。最初,我使用 txt 文件作为该 python 脚本的输入。但是随着数据的增长,我不得不将我的存储平台切换到 Hadoop HDFS。如何将 HDFS 数据作为输入提供给 python 脚本?有什么办法吗?提前致谢。

最佳答案

Hadoop 流式处理 API:

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper /bin/cat \
-reducer /bin/wc

所有你需要知道的都在这里: http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/

关于python - 我们可以将 Hadoop 与 Python 集成吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37936958/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com