apache-spark - 在 Spark 中加入并行性好吗？-6ren

apache-spark - 在 Spark 中加入并行性好吗？

转载作者：行者123 更新时间：2023-12-03 20:30:30

24

4

我在一个非常小的数据集 上运行一个相当小的 Spark 程序，其中包含一些 map 和 reduceByKey 操作。小于 400MB .

在某些时候，我有一个想要排序的元组 RDD，我调用 sortByKey .这是我程序中最慢的部分。其他一切似乎几乎立即运行，但这需要 20 秒 .

问题是，在我的笔记本电脑以及 AWS m3.large 机器集群中需要 20 秒。我试过1、2、3个slave，执行时间差异很小。 Ganglia 和 spark web 控制台表明所有从站的 CPU 和内存都被使用到最大容量，所以我认为配置没问题。

我还发现执行的问题比我预期的要早，但后来 I read this thread ，这指向 Spark 中的一个 Unresolved 问题。我不认为这完全相关。

是吗 sortByKey 本质上很慢，我添加多少节点并不重要，它会决定我的程序的最短执行时间？希望不是，而且我做错了一些事情并且可以修复。

编辑

原来我所看到的与我发布的那个链接有关。 sortByKey 恰好是第一个 Action (记录为转换)，看起来程序排序很慢，但实际上排序非常快。问题出在以前的加入手术。

我所说的一切仍然适用于通过连接更改排序。为什么当我添加更多节点(或 numTask 到 join 函数)时执行时间没有减少，为什么它甚至不比普通的 SQL join 更好？我找到了 someone else having this problem之前，但除了建议调整序列化之外没有其他答案，我真的不认为这是我的情况。

最佳答案

联接本质上是一项繁重的操作，因为必须将具有相同键的值移动到同一台机器上(网络洗牌)。添加更多节点只会增加额外的 IO 开销。

我能想到两件事:

选项 1

如果您将大型数据集与较小的数据集连接起来，则广播较小的数据集是值得的:

val large = sc.textFile("large.txt").map(...) 
val smaller = sc.textFile("smaller.txt").collect().toMap() 
val bc = sc.broadcast(smaller)

然后做一个“手动加入”:

large.map(x => (x.value, bc.value(x.value)))

这在 this Advanced Spark presentation 中有更详细的描述。 .

选项 2

您可以使用与大数据集相同的分区器对小数据集进行重新分区(即确保相似的键位于同一台机器上)。因此，调整小集合的分区以匹配大集合的分区。

这只会触发小集合的洗牌。一旦分区正确，加入应该相当快，因为它将在每个集群节点上本地运行。

关于apache-spark - 在 Spark 中加入并行性好吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24091283/

24

4

0

文章推荐： mongodb - 聚合数组中的对象匹配多个条件的文档

文章推荐： dropzone.js - 服务器响应 Dropzone.js 中的 0 代码问题

文章推荐： php - 按添加日期对文件进行排序 Laravel PHP

macos - react 性 cocoa 中的管道转发运算符(operator)在行动中失踪，是的，我已经导入了 react 性 cocoa
我在 Mac OsX 10.11 上使用 Xcode 7.0.1 (7A1001) 我使用 carthage 0.9.2 通过以下购物车文件下载reactivecocoa github“Reactiv
laravel - 如何避免vue中的 react 性
我正在将一个对象从属性“模型”(我从 Laravel 中的 Blade 属性模型中获得)分配给数据属性模型。后来数据属性模型发生变化，因为它绑定(bind)到表单输入字段。但 Prop “模型”也发生
javascript - 数组内对象的属性更改的 react 性
当我更新数组内对象的属性然后作为组件的 Prop 传递时，在 svelte 中触发 react 性的正确方法是什么？ let items = [{ id: 1, name: 'first'
dry - 是否有自动工具来查找代码库的 DRY 性？
我是 DRY principle 的坚定拥护者: Every piece of knowledge must have a single, unambiguous, authoritative rep
multithreading - 如何保持线程的消息泵 react 性
我正在实现一个需要以下功能的线程: 及时响应终止请求推送消息在等待消息时保持对 SendMessage 请求的响应我对消息泵的初始实现使用了 GetMessage，如下所示: while not
meteor - 暂停实时数据或游标的 react 性
在我的应用程序中，用户获得了一份已到达她的文档列表，并且可以对每个文档执行操作。文件是分批提交的，当这种情况发生时，列表会增加。这一切都很好，这是预期的行为，但最好有一个按钮“暂停实时数据”，它会忽
javascript - 简单的重构会消除 react 性
我有一个属性为的数据对象 displaySubtotal 我可以通过以下方式更新该属性的值: data.displaySubtotal = numPad.valueAsAString(); 我的方法
javascript - 自定义小部件的 react 性
我需要一个垂直 slider 输入。由于内置的 sliderInput 函数无法做到这一点，因此我选择自己实现。根据this thread可以 (I) 使用 CSS 旋转 sliderInput
javascript - 我应该如何保持我的出版物的 react 性？
我正在从自定义用户权限管理系统迁移到 Alanning:roles v2.0 .我有一个非常基本的结构: 基本用户用户组，每个用户组都有特定的设置。我将它们存储在一个“组”集合中。管理群组的用户的
r - 条件 react 性 Shiny
Shiny 中的响应式(Reactive)表达式将更改传播到需要去的地方。我们可以使用 isolate 来抑制一些这种行为。，但是我们可以抑制基于我们自己的逻辑表达式传播的更改吗？我给出的例子是一
Haskell:FRP react 性 Parsec？
是否有(或可能有) react 性 Parsec (或任何其他纯函数式解析器)在 Haskell 中？简而言之，我想逐个字符地为解析器提供数据，并获得与我提供的足够多的结果一样多的结果。或者更简单
javascript - 将输入字符串与文本/元素匹配并突出显示 react 性
HTML(JADE) p#result Lorem ipsum is javascript j s lo 1 2 4 this meteor thismeteor. meteor input.sear
javascript - svelte 如何处理导入内部的 react 性
我有一个被导入函数更改的对象。 https://svelte.dev/repl/e934087af1dc4a25a1ee52cf3fd3bbea?version=3.12.1 我想知道如何使我的更改反
image - 如何在YUV 420半平面图像中应用单应性/ react 性？
我有一个YUV 420半平面格式的图像，其中字节以这种方式存储: [Y1 Y2 ... [U1 V1.... Yk Yk+1...] Uk' Uk'+1] 其中Y平面的大小是UV平面的两倍，并
objective-c - react 性 NSMutableDictionary？
如何使用 ReactiveCocoa 订阅从 NSMutableDictionary 添加和删除的对象？另外，我想在它发生变化时广播通知。我的猜测是可以使用 RACMulticastConnectio
r - Shiny:允许用户选择 react 性
我正在构建一个带有多个选项卡的应用程序，其中一些选项卡涉及过多的计算，而另一些选项卡的计算速度很快。一个允许用户在 react 性或手动更新之间进行选择的复选框，与“刷新”按钮结合使用，将是理想的选择
meteor - 关闭内容可编辑区域的 react 性 (Meteor)
我知道您可以在获取集合时使用 reactive: false 关闭 react 性。如何在内容可编辑区域内的集合字段中实现相同的效果？示例: Template.documentPage.events(
z3 - z3 的解决方法不支持注入(inject)性
我想在 z3 中表示一个哈希函数，比如 SHA(x)。在做了一些研究之后，似乎 z3 不能很好地支持注入(inject)性，所以我不能有像这样的约束(虽然我意识到这并不是严格意义上的碰撞，但作为一种启
javascript - Meteor 中的模板级 react 性
我正在解决一个问题，我想在仪表板中将数据显示为图表(通过 perak:c3 )和表格(通过 aslagle:reactive-table )。我的问题是数据是从 MongoDB 中的集合中提取的，它的
swift - react 性 cocoa 信号不起作用
我的 ViewModel 中有这个函数，它返回一个信号，但内部 block 不起作用，我尝试添加断点，但它没有中断。这是我的代码。 func executeLoginAPI() -> RACSigna

首页

博学

6Ren·AI

商城

apache-spark - 在 Spark 中加入并行性好吗？