gpt4 book ai didi

python - 在 apache spark/Storm 中运行 python 脚本

转载 作者:可可西里 更新时间:2023-11-01 16:58:21 25 4
gpt4 key购买 nike

我有一个用 python 编写的算法(不兼容 hadoop,即不是 mapper.py 和 reducer.py),它在本地系统(不是 hadoop)中运行完美。我的目标是在 hadoop 中运行它。

选项 1:Hadoop 流式处理。但是,我需要将这个 python 脚本转换为 mapper 和 reducer。还有其他办法吗?

选项 2:通过 Storm 运行此 python 脚本。但是,我使用的是没有 Storm 的 cloudera。我需要在 cloudera 中安装 storm 或需要使用 Spark。如果我在cloudera中安装storm。这是更好的选择吗?

选项 3:通过 Spark (Cloudera) 运行此 python 脚本。可能吗。

此算法不用于实时处理。但是,我们想用hadoop技术处理它。
请帮助其他合适的解决方案。

最佳答案

首先,您要实现的目标是什么?在 Hadoop 技术上运行对您来说意味着什么?如果目标是处理大量数据,这是一回事,如果是并行化算法,则是另一回事。我猜你两者都想要。

首先是:算法是否可并行化?能不能同时跑多条数据,最后全部汇集起来做最终的答案呢?有些算法不是,特别是如果它们是递归的并且需要先前计算的数据来处理下一个。

无论如何,在Hadoop上运行意味着使用Hadoop工具运行,无论是Spark、Storm还是其他可以在Python上运行的服务,利用Hadoop意味着为它编写算法。如果您的算法是可并行化的,那么您很可能可以轻松地获取处理一份数据的部分,并使其适应在大型数据集上与 Spark 或 Storm 一起运行。

关于python - 在 apache spark/Storm 中运行 python 脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27192852/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com