python - 在 apache spark/Storm 中运行 python 脚本-6ren

python - 在 apache spark/Storm 中运行 python 脚本

转载作者：可可西里更新时间：2023-11-01 16:58:21

25

4

我有一个用 python 编写的算法(不兼容 hadoop，即不是 mapper.py 和 reducer.py)，它在本地系统(不是 hadoop)中运行完美。我的目标是在 hadoop 中运行它。

选项 1:Hadoop 流式处理。但是，我需要将这个 python 脚本转换为 mapper 和 reducer。还有其他办法吗？

选项 2:通过 Storm 运行此 python 脚本。但是，我使用的是没有 Storm 的 cloudera。我需要在 cloudera 中安装 storm 或需要使用 Spark。如果我在cloudera中安装storm。这是更好的选择吗？

选项 3:通过 Spark (Cloudera) 运行此 python 脚本。可能吗。

此算法不用于实时处理。但是，我们想用hadoop技术处理它。
请帮助其他合适的解决方案。

最佳答案

首先，您要实现的目标是什么？在 Hadoop 技术上运行对您来说意味着什么？如果目标是处理大量数据，这是一回事，如果是并行化算法，则是另一回事。我猜你两者都想要。

首先是:算法是否可并行化？能不能同时跑多条数据，最后全部汇集起来做最终的答案呢？有些算法不是，特别是如果它们是递归的并且需要先前计算的数据来处理下一个。

无论如何，在Hadoop上运行意味着使用Hadoop工具运行，无论是Spark、Storm还是其他可以在Python上运行的服务，利用Hadoop意味着为它编写算法。如果您的算法是可并行化的，那么您很可能可以轻松地获取处理一份数据的部分，并使其适应在大型数据集上与 Spark 或 Storm 一起运行。

关于python - 在 apache spark/Storm 中运行 python 脚本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27192852/

25

4

0

文章推荐： hadoop - 流数据 [Hadoop/MapReduce] - 挑战是什么？

文章推荐： HTTP 状态代码和 DNS 循环

文章推荐： c# - Flex 与 C# 后端通信的最佳方式？

文章推荐： java - 在 HADOOP 映射中使用泛型减少问题

apache-storm - Storm 用户界面不工作
我们正在以伪模式执行 Storm 拓扑。 Storm 拓扑运行良好，能够连接 Storm UI (8080)。但是Storm UI 没有显示正在运行的拓扑信息。也重新启动了 Storm UI 进程
apache-storm - Storm 拓扑中的可选流
我们有一个相当简单的 Storm 拓扑，让人头疼。我们的一个 bolt 可以发现它正在处理的数据是有效的，并且每件事都正常进行，或者它可以发现它是无效但可以修复的。在这种情况下，我们需要将其发送以进
apache-storm - Storm 中的三叉戟状态是什么？
我是 Storm 中 Trident 的新手。我对 TridentState 感到很头疼。据我了解，三叉戟维护每个批次的状态(即元数据)(批次中的所有元组是否都通过在数据库中维护事务 ID 来完全处理
apache-storm - Storm 场分组
我有以下情况: 有许多 bolt 计算不同的值该值被发送到可视化 bolt 可视化 bolt 打开一个网络套接字并发送值以某种方式可视化问题是，可视化 bolt 总是相同的，但它为可以作为其输入的
apache-storm - Storm 场分组示例
我正在使用 Kafka storm，kafka 向 storm 发送/发出 json 字符串，在 storm 中，我想根据 json 中的键/字段将负载分配给几个工作人员。怎么做？在我的例子中，它是
apache-storm - Storm 支持类似批处理的处理
我需要使用 Storm 处理成批的元组。我的最后一个 bolt 必须等到拓扑接收到整个批次，然后才能进行一些处理。为避免混淆 - 对我来说，批处理是一组实时出现的 N 条消息，该术语不必与批处理 (H
apache-storm - Storm 中的连接被拒绝错误
我是 Storm 的新手..我遇到了以下错误 java.net.ConnectException: Connection refused at sun.nio.ch.SocketChannel
apache-storm - Storm - 主管在重启时崩溃
这是一个让我发疯的问题。我的本地 LAN 上运行着一台机器 Storm 实例。我目前正在运行 v0.9.1-incubating发布版本(来自 the Apache Incubator site。问题
apache-storm - Storm ClassNotFoundException
我是第一次使用 Storm(从开始使用 Storm 学习)，我的项目在运行时失败并出现 ClassNotFoundException: [WARNING] java.lang.ClassNotFoun
apache-storm - Storm 拓扑配置
如何为 Storm 拓扑提供自定义配置？例如，如果我构建了一个连接到 MySQL 集群的拓扑，并且我希望能够在不重新编译的情况下更改需要连接的服务器，我该怎么做？我的偏好是使用配置文件，但我担心文件本
apache-storm - Storm 好用吗？
我一直在阅读 Storm并尝试使用 Storm-starter 中的示例。我想我明白了这个概念，它非常适用于许多情况。我有一个我想做的测试项目来了解更多关于这方面的信息，但我想知道 Storm 是否
apache-storm - Storm 中的背压
在我们的 Storm 1.0.2 应用程序中，我们面临内存不足的异常。在调试时，我们发现 Kafka spout 向 Bolt 发出了太多消息。 bolt 的运行能力几乎为 4.0。那么有没有一种方法
apache-storm - 三叉戟拓扑中的并行配置( Storm )
看完this和 this我很难理解如何配置我的三叉戟拓扑。基本上我的 Storm 应用程序正在读取 kafka ，进行一些数据操作，最后写入 Cassandra . 这是我目前构建拓扑的方式: pr
apache-storm - build Storm 启动器 : getting error "POM for storm-core missing"
我已经从 https://github.com/apache/incubator-storm 下载了 incubator-storm 代码.现在，我尝试使用以下命令运行 WordCountTopolo
apache-storm - 了解 Storm 架构
我一直在努力理解 Storm 架构，但我不确定我是否理解正确。我会尽量准确地解释我认为的情况。请解释什么 - 如果 - 我错了，什么是对的。初步想法: worker http://storm.apa
apache-storm - 重新平衡后 Storm 任务状态会转移到新的执行器吗？
这是我阅读后想到的一个问题: What is the "task" in Storm parallelism 如果我需要在 bolt 的内部状态中保留一些信息，例如，在经典的单词计数用例中，将 bol
apache-storm - Apache Storm 无法从种子主机中找到领导者灵气
我已经使用 docker compose 安装了 Apache-Storm docker-compose.yml: kafka: image: spotify/kafka ports:
apache-storm - 以编程方式获取 Storm 拓扑统计信息
我正在围绕我的 Storm 拓扑构建一个监控服务，并希望能够获取各个时间窗口周围的失败元组数量，类似于 Storm UI 如何在 10m、3h 和 1d 窗口中显示失败元组的数量。我的监控服务目前是
apache-storm - 向 Storm 提交拓扑
我已经在我的机器上配置了 Storm。 Zookeeper、Nimbus 和 Supervisor 运行正常。现在我想向这个 Storm 提交一个拓扑。我正在尝试使用 Storm jar 。但我
apache-storm - (Twitter) Storm 的聚合窗口
我在玩 Storm，我想知道 Storm 在哪里指定(如果可能)聚合时的(翻滚/滑动)窗口大小。例如。如果我们想在 Twitter 上找到前一小时的热门话题。我们如何指定一个 bolt 应该每小时返回

首页

博学

6Ren·AI

商城

python - 在 apache spark/Storm 中运行 python 脚本