java - 在 Apache Spark 中，我可以轻松地重复/嵌套 SparkContext.parallelize 吗？-6ren

java - 在 Apache Spark 中，我可以轻松地重复/嵌套 SparkContext.parallelize 吗？

转载作者：行者123 更新时间：2023-12-01 10:44:13

我正在尝试对我们正在尝试解决的遗传学问题进行建模，并逐步构建它。我可以成功运行 Spark Examples 中的 PiAverage 示例。该示例向一个圆圈“扔飞镖”(在我们的例子中为 10^6)，并计算“落在圆圈中”的数量来估计 PI

假设我想重复该过程 1000 次(并行)并对所有这些估计值取平均值。我正在尝试寻找最好的方法，似乎会有两次并行调用？嵌套调用？没有办法将映射或减少调用链接在一起吗？我看不到。

我想知道下面这个想法是否明智。我考虑使用累加器来跟踪结果估计。 jsc 是我的 SparkContext，单次运行的完整代码在问题末尾，感谢您的任何输入!

Accumulator<Double> accum = jsc.accumulator(0.0);

// make a list 1000 long to pass to parallelize (no for loops in Spark, right?)
List<Integer> numberOfEstimates = new ArrayList<Integer>(HOW_MANY_ESTIMATES);

// pass this "dummy list" to parallelize, which then 
// calls a pieceOfPI method to produce each individual estimate  
// accumulating the estimates. PieceOfPI would contain a 
// parallelize call too with the individual test in the code at the end
jsc.parallelize(numberOfEstimates).foreach(accum.add(pieceOfPI(jsc, numList, slices, HOW_MANY_ESTIMATES)));

// get the value of the total of PI estimates and print their average
double totalPi = accum.value();

// output the average of averages
System.out.println("The average of " + HOW_MANY_ESTIMATES + " estimates of Pi is " + totalPi / HOW_MANY_ESTIMATES);

这看起来不像是我在 SO 上看到的矩阵或其他答案，请给出这个特定问题的答案，我已经进行了多次搜索，但我不知道如何在不“并行化并行化”的情况下做到这一点。这是一个坏主意吗？

(是的，我意识到在数学上我可以做更多的估计并有效地得到相同的结果:)尝试构建我老板想要的结构，再次感谢!

如果有帮助的话，我已经把我的整个单一测试程序放在这里，没有我正在测试的累加器。其核心将成为 PieceOfPI():

import java.io.Serializable;
import java.util.ArrayList;
import java.util.List;

import org.apache.spark.Accumulable;
import org.apache.spark.Accumulator;
import org.apache.spark.SparkContext;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.storage.StorageLevel;
import org.apache.spark.SparkConf;
import org.apache.spark.storage.StorageLevel;

public class PiAverage implements Serializable {

public static void main(String[] args) {

    PiAverage pa = new PiAverage();
    pa.go();

}

public void go() {

    // should make a parameter like all these finals should be
    // int slices = (args.length == 1) ? Integer.parseInt(args[0]) : 2;
    final int SLICES = 16;

    // how many "darts" are thrown at the circle to get one single Pi estimate
    final int HOW_MANY_DARTS = 1000000;

    // how many "dartboards" to collect to average the Pi estimate, which we hope converges on the real Pi
    final int HOW_MANY_ESTIMATES = 1000;

    SparkConf sparkConf = new SparkConf().setAppName("PiAverage")
        .setMaster("local[4]");

    JavaSparkContext jsc = new JavaSparkContext(sparkConf);

    // setup "dummy" ArrayList of size HOW_MANY_DARTS -- how many darts to throw
    List<Integer> throwsList = new ArrayList<Integer>(HOW_MANY_DARTS);
    for (int i = 0; i < HOW_MANY_DARTS; i++) {
        throwsList.add(i);
    }

    // setup "dummy" ArrayList of size HOW_MANY_ESTIMATES
    List<Integer> numberOfEstimates = new ArrayList<Integer>(HOW_MANY_ESTIMATES);
    for (int i = 0; i < HOW_MANY_ESTIMATES; i++) {
        numberOfEstimates.add(i);
    }

    JavaRDD<Integer> dataSet = jsc.parallelize(throwsList, SLICES);

    long totalPi = dataSet.filter(new Function<Integer, Boolean>() {
        public Boolean call(Integer i) {
            double x = Math.random();
            double y = Math.random();
            if (x * x + y * y < 1) {
                return true;
            } else
                return false;
        }
    }).count();

    System.out.println(
            "The average of " + HOW_MANY_DARTS + " estimates of Pi is " + 4 * totalPi / (double)HOW_MANY_DARTS);

    jsc.stop();
    jsc.close();
}
}

最佳答案

让我从你的“背景问题”开始。 map、join、groupBy 等转换操作分为两类；那些需要对来自所有分区的数据进行洗牌的输入，以及那些不需要的输入。 groupBy 和 join 等操作需要随机播放，因为您需要使用相同的键将所有 RDD 分区中的所有记录汇集在一起(想想 SQL JOIN 和 GROUP BY 操作有效)。另一方面，map、flatMap、filter等不需要混洗，因为该操作在上一步的分区。它们一次处理单个记录，而不是具有匹配键的一组记录。因此，不需要进行洗牌。

这个背景对于理解“额外的 map ”不会有很大的开销是必要的。诸如 map、flatMap 等一系列操作被“压缩”到一个“阶段”(当您在 Spark 中查看作业的详细信息时会显示该阶段) Web 控制台)，以便只有一个 RDD 被具体化，即阶段末尾的那个。

关于你的第一个问题。我不会为此使用累加器。它们用于“边带”数据，例如计算您解析了多少行坏行。在此示例中，您可以使用累加器来计算半径 1 内部和外部的 (x,y) 对数量。

Spark 发行版中的 JavaPiSpark 示例已经足够好了。你应该研究它为什么有效。这是适合大数据系统的数据流模型。您可以使用“聚合器”。在 Javadocs ，单击“index”并查看 agg、aggregate 和 aggregateByKey 函数。然而，它们在这里并不容易理解，也没有必要。它们比 map 和 reduce 提供了更大的灵 active ，因此值得了解它们

代码的问题在于，您实际上是在试图告诉 Spark 要做什么，而不是表达您的意图并让 Spark 优化它为您执行的操作方式。

最后，我建议你购买并学习O'Reilly的《Learning Spark》。它很好地解释了内部细节，例如暂存，并且还显示了许多您可以使用的示例代码。

关于java - 在 Apache Spark 中，我可以轻松地重复/嵌套 SparkContext.parallelize 吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34279781/

文章推荐： java - 如何在java中使用LINQ查询Azure表

文章推荐： java - 使用扫描仪匹配混合列表元素

文章推荐： adobe-illustrator - 在 Illustrator 中导出多个尺寸的图像

java - NoMessageBodyWriterFoundFailure 轻松
我尝试将resteasy与自定义对象一起使用，当我创建jar文件时，它与intellij IDE一起工作正常，但失败并出现以下异常 org.jboss.resteasy.core.NoMessageB
r - 观察Shiny中的模式(轻松)关闭
我正在寻找一种在easy-close选项为TRUE时基于Shiny模态关闭触发事件的方法（因此，在模态外部单击将其关闭）。由于没有链接到模式的ID，因此我似乎无法捕获此事件。我尝试在“观察”事件中包装
c# - 如何*轻松*公开底层对象的方法？
假设我有一些定义如下的类: class Security { Boolean AuthenticateUser(String username, String password); B
coq - Coq 可以(轻松)用作模型检查器吗？
正如标题所说，Coq 可以用作模型检查器吗？我可以将模型检查与 Coq 证明混合使用吗？这是常态吗？谷歌谈论“微积分”，有没有人有这方面的经验或类似的经验？是否建议以这种方式使用 Coq，或者我应该寻
Datagrip - (轻松)获取超过 500 个结果的查询的行数
是否有一种方法(设置或快捷方式)可以显示输出超过 500 行的查询的总行数 - 即，无需修改首选项中的“结果集页面大小”值？我本质上是在寻找 select count(*) from () t 的输出
java - 如何*轻松*在 Java 程序中显示韩语字符
我想这样做: System.out.println("안녕하세요!"); 但是当我尝试在 Eclipse 中进行编译时，出现“某些字符无法使用 MacRoman 字符编码进行编码”弹出式错误消息。我正
macos - 有什么方法可以(轻松)确定格式化 Framesetter 所需的最小宽度？
如果我有一个用这样的字符串初始化的框架 setter CTFramesetterRef framesetter = CTFramesetterCreateWithAttributedString(at
rest - 轻松 POST 响应的“最佳”实践
所以这里没有什么新内容，我只是想得到一些澄清，但似乎在其他帖子中找不到任何澄清。我正在安静地创建一个新资源，例如: /books (POST) 有一个 body : { title: 'The
c - 轻松“反转”一组 C 预处理器宏
我有很多预处理器宏定义，如下所示: #define FOO 1 #define BAR 2 #define BAZ 3 在实际应用中，每个定义对应一个解释器虚拟机中的一条指令。宏的编号也不是连续的，以
ios - 轻松/高效地检查/删除 SKScene 子画面？
使用 SpriteKit 开发 iOS 游戏。我的背景由 map block 组成(本质上是无限 map ，程序生成)。我们的系统旨在管理 map 的“ block ”，我们只加载玩家附近的 blo
ruby - 如何(轻松)在 Ruby 中使用长度和分隔符拆分字符串
我需要在 Ruby 中拆分一个具有以下格式的字符串: [{a:1,b:2,c:3,d:4},{a:5,b:6,c:7,d:8},{a:9,b:10,c:11,d:12},{a:13,b:14,c:1
javascript - 如何使用 JavaScript 轻松 chop 数组？
Linq 有一个名为 Take() 的便捷运算符方法，可以返回任何实现 IEnumerable 的元素中给定数量的元素。 jQuery 中是否有类似的东西可以处理数组？或者，换个方式问:如何在 Ja
google-apps-script - 在 Google 文档中以编程方式向前或向后移动光标(轻松)
每当我使用以下代码在文档中插入图像时， var cursor = DocumentApp.getActiveDocument().getCursor(); var image = cursor
perl - 给定许多变量来测试定义性，如何(轻松)找出 undefined variable ？
今天看到这样一段代码: if ( not defined($reply_address) or not defined($from_name) or not defined(
c++ - C++14/17 的模块提案是否可以(轻松)使用其他本地语言来生成模块？
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
Mercurial:将 "style file"放在哪里，以便它可以(轻松)用于我的所有项目
刚刚了解 mercurial 的 --style和 --template可用于 hg log 的选项和 hg tip我发现它们非常有帮助，但我不知道把我的“样式文件”放在哪里我有一个“样式文件”，它
javascript - 轻松 bundle 含 require 指令的 JavaScript 文件的方法
是否有一些应用程序可以自动 bundle (并缩小)包含 require('file.js') 调用的 JS 项目？这样它们就会合并并生成一个文件。具体来说，我正在谈论when.js ，一个带有大量
sublimetext - 如何(轻松)获取 Sublime Text 3 中的当前文件路径
如何(轻松)获取 Sublime Text 3 中的当前文件路径我不经常使用 ST 控制台(我只使用它一次来安装包管理器)，但我认为这可能是一个好方法: 像某种pwd命令一样获取当前文件路径。但这
java - 轻松 : How to consume Map as QueryParam in resteasy service api
嗨，我正在使用resteasy api，我需要使用Map作为QueryParam。我可以使用列表作为 QueryParam，但是当我尝试传递 Map 时，我收到下面提到的错误。这是我的服务代码 @G
c++ - 如何(轻松)将 C++ 函数包装到易于安装的 R 'package'
假设我有一个 C++ 代码(请参阅下面的简单示例)。我想让期刊审稿人轻松安装/运行所以我认为最简单的方法是将其变形为简化的类 R 包的 tar.gz 文件，以便裁判可以安装它通过简单地调用 inst

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 在 Apache Spark 中，我可以轻松地重复/嵌套 SparkContext.parallelize 吗？