Sun Grid Engine 上的 Python MapReduce-6ren

Sun Grid Engine 上的 Python MapReduce

转载作者：太空宇宙更新时间：2023-11-04 03:51:57

24

4

我对分布式计算比较陌生，所以如果我误解了这里的一些基本概念，请原谅我。我正在寻找(最好)基于 Python 的 Hadoop 替代方案，以便使用基于 SGE 的网格引擎(例如 OpenGrid 或 Sun of Grid Engine)在集群上通过 MapReduce 处理大型数据集。我很幸运地使用 PythonGrid 运行基本的分布式作业，但我真的想要一个功能更丰富的框架来运行我的作业。我已经阅读了像 Disco 这样的工具和 MinceMeatPy ，两者似乎都提供真正的 Map-Sort-Reduce 作业处理，但它们似乎对 SGE 没有任何明显的支持。这让我想知道是否有可能使用网格调度程序实现真正的 MapReduce 功能，或者人们是否只是不支持开箱即用，因为它们不经常使用。您可以在网格引擎上执行 Map-Sort-Reduce 任务吗？他们的 Python 工具支持这个吗？装配现有的 MapReduce 工具以使用 SGE 作业调度程序会有多困难？

最佳答案

我听说过 Jug作品。它使用文件系统来协调并行任务。在那种框架中，您将编写代码并在您所在的机器上运行“jug status primes.py”，然后启动一个网格阵列作业，其中包含任意数量的 worker ，所有 worker 都在运行“jug execute primes.py” ".

mincemeat.py 应该能够以相同的方式运行，但希望使用网络进行协调。因此，这可能取决于您的节点是否可以与运行整个脚本的服务器通信。

有几个关于运行实际 Hadoop MapReduce and HDFS on SGE 的发行说明，但我没能找到好的文档。

如果你习惯了 Hadoop streaming with Python ，在 SGE 上复制也不错。我在工作中取得了一些成功:我运行了一个数组作业，它为每个输入文件执行 map + shuffle。然后是另一个数组作业，它对每个 reducer 编号进行排序 + 缩减。 shuffle 部分只是将文件写入网络目录，如 mapper00000_reducer00000、mapper00000_reducer00001 等等(所有成对的 mapper 和 reducer 编号)。然后 reducer 00001 将所有标记为 reducer00001 的文件排序在一起，并通过管道传输到 reducer 代码。

不幸的是，Hadoop 流式处理功能不是很全。

关于Sun Grid Engine 上的 Python MapReduce，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20909951/

24

4

0

文章推荐： Python Matplotlib : "ImportError: cannot import name flatten"

文章推荐： html - 样式化选定的 AngularUI 单选按钮

文章推荐： javascript - 停止提交时自动刷新表单

java - Sun 的 Java 包命名约定 : sun vs. com.sun
在 JRE 中，Sun 的内部包以 2 个顶级域(sun 和 com)为前缀。例如， com.sun.security.jgss sun.security.jgss 他们选择哪个前缀对我来说似乎很随机
java - sun.* 与 com.sun.* 之间的区别
我最近从 Java 8 迁移到了 Java 11。对于 jax.ws 我必须向我的 pom.xml 添加以下外部依赖项，因为它在 Java 11 中不再可用。但是，我遇到了一些论点，即 com.sun
c++ - Sun Studio 10 有奇怪的 `sun` 常量？
奇怪的是，以下 C++ 程序在 Sun Studio 10 上编译时没有针对 undefined variable 产生警告: int main() { return sun; } sun的值好像
reflection - Sun JVM 在运行时创建 sun.reflect.DelegatingClassLoader 的实例是什么？
在使用 jhat 分析堆转储时，我观察到创建了许多 DelegatingClassLoader 实例，尽管它们没有在代码中显式调用。我希望这是某种反射优化机制。有人知道细节吗？最佳答案是的，这可能
java - 使用 sun.misc.BASE64Decoder/sun.misc.BASE64Encoder 是个好主意吗？
我正在使用 Web 服务在 Android 应用程序和 SOAP Web 服务之间发送数据。此 Web 服务仅接受序列化对象，而执行此操作的唯一方法是使用: import sun.misc.BASE6
java - sun.misc.Contended 不是包 sun.misc Scala 的成员
我正在将 JDK 版本从 8 更新到 11，以解决某些并发数据结构的问题。 error: type Contended is not a member of package sun.misc [ERR
Android Studio sun.font.CompositeFont 无法转换为 sun.font.PhysicalFont
尝试在两台不同的 Ubuntu 计算机上运行 Android Studio 2.2.3 时，我不断收到此错误。一个运行 14.04 Trusty，另一个运行 16.04 Xenial。它运行初始屏幕
java - 不应使用来自 "com.sun.*"和 "sun.*"包的 SonarQube 规则类
我有一个具有以下特征的 J2EE 项目: CDI 1.0 Dynamic Web Module 3.0 Java 1.7 (it's being changed to 1.8) JSF 2.0 JPA
jsf - com.sun.faces.numberOfViewsInSession 与 com.sun.faces.numberOfLogicalViews
JSF 2 的 Mojarra 实现具有以下上下文参数: com.sun.faces.numberOfViewsInSession(默认为 15) com.sun.faces.numberOfLogi
java - 正确替换 Sun 内部 com.sun.image.codec.jpeg 包的使用？
我们有一些代码在使用这个旧的内部 Sun 包来处理图像，本质上是在从输入流中读取/解码后将 JPEG 编码为特定的大小和质量。下面的代码示例。我将不胜感激使用适当的 java.* 或 javax.*
go - x := [. ..] 字符串 {"Sat", "Sun"} vs x := []string {"Sat", "Sun"}
在 go 语言中 spec他们在其中一个示例中使用了三个点: days := [...]string{"Sat", "Sun"} // len(days) == 2 如果省略这三个点有什么不同吗？
java - 不应使用 "com.sun.*"和 "sun.*"包中的类 Sonar issue for Jersey client
我正在使用 jersey 客户端进行休息调用。我的代码的导入是: import com.sun.jersey.api.client.Client; import com.sun.jersey.api
java - 针对 Sun 认证 Java 程序员 (SCJP) 的 Sun 培训 - 类还是网络？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 9 年前。 Improve
eclipse - 取决于 Eclipse 中 tools.jar (Sun JDK) 的 com.sun.javadoc
我们的一个插件需要安装 JDK，而不仅仅是 JRE。我们需要 com.sun.javadoc 和 tools.jar 中的 friend 。我认为 Sun 的许可证不允许重新分发 tools.jar(
maven - com.sun.javafx.fxml.FXMLLoaderHelper 类无法访问 com.sun.javafx.util.Utils 类
起初，我想说这个问题还有其他主题，但我尝试了解决方案，但对我不起作用。我解释我的问题。我开始在我的电脑上用 Maven 开发一个 Javafx 项目。在这台计算机中，SDK java 是 10。现
Javadoc 生成失败 : ClassCastException: com. sun.tools.javadoc.ClassDocImpl 无法转换为 com.sun.javadoc.AnnotationTypeDoc
当我这样做时，我收到以下错误 mvn clean deploy -DperformRelease=true [ERROR] Exit code: 1 - .java:3: package javax.
java - sun.security.validator.ValidatorException : PKIX path building failed: sun. security.provider.certpath.SunCertPathBuilderException
情况: (1) 我正在使用 Android Studio 4.1 并尝试构建示例 Android 应用程序 (2) 我支持代理和代理设置工作正常，因为我能够下载和安装 SDK 我收到以下错误:我尝试了
java - OpenJDK 11 java.lang.ClassCastException : class sun. font.CompositeFont 无法转换为类 sun.font.PhysicalFont
我在 Linux 上使用 openJDK 11 运行 junit 测试并收到以下错误: java.lang.ClassCastException: class sun.font.CompositeFo
java - sun.net.www.protocol.https.HttpsURLConnectionImpl 无法转换为 sun.net.www.protocol.http.HttpURLConnection
我正在使用 selenium 库进行测试。但下面的代码给了我类转换异常。我已经用谷歌搜索了这个异常，但没有得到解决方案。我对 Https 连接和 http 连接感到困惑。帮我解决这个异常。谢谢 imp
java - com.sun.tools.apt.mirror.type.ClassTypeImpl 无法转换为 com.sun.mirror.type.AnnotationType
有人知道什么可能导致主题错误吗？我发现了另一个帖子 Enunciate Issue = Assembling the enunciate app. com.sun.tools.apt.mirror.t

首页

博学

6Ren·AI

商城

Sun Grid Engine 上的 Python MapReduce