gpt4 book ai didi

java - Apache Spark - 并行运行外部 exe 或 jar 文件

转载 作者:行者123 更新时间:2023-11-30 03:30:59 28 4
gpt4 key购买 nike

我有 .exe 文件(我没有源文件,所以我无法编辑程序),将其作为正在处理的文件的参数路径,并最终给出结果。例如,在控制台中,我按如下方式运行该程序:program.exe -file file_to_process [other_parametrs]。我还有 jar 可执行文件,它采用两个参数 file_to_process 和第二个文件和 [others_parameters]。在这两种情况下,我都想将输入文件分割成最小的部分并并行运行程序。有什么方法可以使用 Apache Spark Java 框架高效地实现这一点。我是并行计算的新手,我读过有关 RDD 和管道运算符的内容,但我不知道它是否适合我的情况,因为我有文件路径。

如果您能提供一些帮助或提示,我将非常感激。

最佳答案

我最近遇到了类似的问题,并且我有一个 Spark 2.1.0 的工作代码。基本思想是,您将 exe 及其依赖项(例如 dll)放入 HDFS 或本地并使用 addFiles将它们添加到驱动程序中,这也会将它们复制到工作执行器中。然后,您可以将文件作为 RDD 加载,并使用 mapPartitionsWithIndex 函数将每个分区保存到本地,并使用 Process 执行该分区的 exe(使用 SparkFiles.get 从工作执行器获取路径)。 。希望有帮助。

关于java - Apache Spark - 并行运行外部 exe 或 jar 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29059269/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com