- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在一个非常小的数据集 上运行一个相当小的 Spark 程序,其中包含一些 map 和 reduceByKey 操作。小于 400MB .
在某些时候,我有一个想要排序的元组 RDD,我调用 sortByKey .这是我程序中最慢的部分。其他一切似乎几乎立即运行,但这需要 20 秒 .
问题是,在我的笔记本电脑以及 AWS m3.large 机器集群中需要 20 秒。我试过1、2、3个slave,执行时间差异很小。 Ganglia 和 spark web 控制台表明所有从站的 CPU 和内存都被使用到最大容量,所以我认为配置没问题。
我还发现执行的问题比我预期的要早,但后来 I read this thread ,这指向 Spark 中的一个 Unresolved 问题。我不认为这完全相关。
是吗 sortByKey 本质上很慢,我添加多少节点并不重要,它会决定我的程序的最短执行时间?希望不是,而且我做错了一些事情并且可以修复。
编辑
原来我所看到的与我发布的那个链接有关。 sortByKey 恰好是第一个 Action (记录为转换),看起来程序排序很慢,但实际上排序非常快。问题出在以前的 加入 手术。
我所说的一切仍然适用于通过连接更改排序。为什么当我添加更多节点(或 numTask 到 join 函数)时执行时间没有减少,为什么它甚至不比普通的 SQL join 更好?我找到了 someone else having this problem之前,但除了建议调整序列化之外没有其他答案,我真的不认为这是我的情况。
最佳答案
联接本质上是一项繁重的操作,因为必须将具有相同键的值移动到同一台机器上(网络洗牌)。添加更多节点只会增加额外的 IO 开销。
我能想到两件事:
选项 1
如果您将大型数据集与较小的数据集连接起来,则广播较小的数据集是值得的:
val large = sc.textFile("large.txt").map(...)
val smaller = sc.textFile("smaller.txt").collect().toMap()
val bc = sc.broadcast(smaller)
large.map(x => (x.value, bc.value(x.value)))
关于apache-spark - 在 Spark 中加入并行性好吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24091283/
我在 Mac OsX 10.11 上使用 Xcode 7.0.1 (7A1001) 我使用 carthage 0.9.2 通过以下购物车文件下载reactivecocoa github“Reactiv
我正在将一个对象从属性“模型”(我从 Laravel 中的 Blade 属性模型中获得)分配给数据属性模型。后来数据属性模型发生变化,因为它绑定(bind)到表单输入字段。但 Prop “模型”也发生
当我更新数组内对象的属性然后作为组件的 Prop 传递时,在 svelte 中触发 react 性的正确方法是什么? let items = [{ id: 1, name: 'first'
我是 DRY principle 的坚定拥护者: Every piece of knowledge must have a single, unambiguous, authoritative rep
我正在实现一个需要以下功能的线程: 及时响应终止请求 推送消息 在等待消息时保持对 SendMessage 请求的响应 我对消息泵的初始实现使用了 GetMessage,如下所示: while not
在我的应用程序中,用户获得了一份已到达她的文档列表,并且可以对每个文档执行操作。 文件是分批提交的,当这种情况发生时,列表会增加。这一切都很好,这是预期的行为,但最好有一个按钮“暂停实时数据”,它会忽
我有一个属性为 的数据对象 displaySubtotal 我可以通过以下方式更新该属性的值: data.displaySubtotal = numPad.valueAsAString(); 我的方法
我需要一个垂直 slider 输入。由于内置的 sliderInput 函数无法做到这一点,因此我选择自己实现。根据this thread可以 (I) 使用 CSS 旋转 sliderInput
我正在从自定义用户权限管理系统迁移到 Alanning:roles v2.0 .我有一个非常基本的结构: 基本用户 用户组,每个用户组都有特定的设置。我将它们存储在一个“组”集合中。 管理群组的用户的
Shiny 中的响应式(Reactive)表达式将更改传播到需要去的地方。我们可以使用 isolate 来抑制一些这种行为。 ,但是我们可以抑制基于我们自己的逻辑表达式传播的更改吗? 我给出的例子是一
是否有(或可能有) react 性 Parsec (或任何其他纯函数式解析器)在 Haskell 中? 简而言之,我想逐个字符地为解析器提供数据,并获得与我提供的足够多的结果一样多的结果。 或者更简单
HTML(JADE) p#result Lorem ipsum is javascript j s lo 1 2 4 this meteor thismeteor. meteor input.sear
我有一个被导入函数更改的对象。 https://svelte.dev/repl/e934087af1dc4a25a1ee52cf3fd3bbea?version=3.12.1 我想知道如何使我的更改反
我有一个YUV 420半平面格式的图像,其中字节以这种方式存储: [Y1 Y2 ... [U1 V1.... Yk Yk+1...] Uk' Uk'+1] 其中Y平面的大小是UV平面的两倍,并
如何使用 ReactiveCocoa 订阅从 NSMutableDictionary 添加和删除的对象?另外,我想在它发生变化时广播通知。我的猜测是可以使用 RACMulticastConnectio
我正在构建一个带有多个选项卡的应用程序,其中一些选项卡涉及过多的计算,而另一些选项卡的计算速度很快。一个允许用户在 react 性或手动更新之间进行选择的复选框,与“刷新”按钮结合使用,将是理想的选择
我知道您可以在获取集合时使用 reactive: false 关闭 react 性。如何在内容可编辑区域内的集合字段中实现相同的效果?示例: Template.documentPage.events(
我想在 z3 中表示一个哈希函数,比如 SHA(x)。在做了一些研究之后,似乎 z3 不能很好地支持注入(inject)性,所以我不能有像这样的约束(虽然我意识到这并不是严格意义上的碰撞,但作为一种启
我正在解决一个问题,我想在仪表板中将数据显示为图表(通过 perak:c3 )和表格(通过 aslagle:reactive-table )。我的问题是数据是从 MongoDB 中的集合中提取的,它的
我的 ViewModel 中有这个函数,它返回一个信号,但内部 block 不起作用,我尝试添加断点,但它没有中断。这是我的代码。 func executeLoginAPI() -> RACSigna
我是一名优秀的程序员,十分优秀!