apache-spark - Spark join 总是卡在同一个任务上，我该如何调试？-6ren

apache-spark - Spark join 总是卡在同一个任务上，我该如何调试？

转载作者：行者123 更新时间：2023-12-01 13:46:29

24

4

我正在使用 pyspark运行这种连接:

rdd1=sc.textFile(hdfs_dir1).map(lambda row: (getKey1(row),getData1(row)))
rdd2=sc.textFile(hdfs_dir2).map(lambda row: (getKey2(row),getData2(row)))
result=rdd1.join(rdd2).collect()

作业执行第一个 300任务相当快(每个~几秒)，并在到达任务时挂起 301/308 ，即使我让它运行了几天。

我试图运行 pyspark shell 具有不同的配置(worker 数量、内存、CPU、内核、混洗率)并且结果总是相同的。

可能是什么原因？我该如何调试它？

最佳答案

Collect将尝试获取您加入应用程序驱动程序节点的结果，您将遇到内存问题。

join 操作会导致大量的 shuffle 操作，但您可以通过使用布隆过滤器 ( Bloom filter ) 来减少这种情况。您为一个分区中的键构建了布隆过滤器，广播和 filter另一个分区。应用此操作后，您应该期望更小的 RDD(如果您在两者中没有完全相同的键)和您的 join操作应该会快很多。

可以有效地收集布隆过滤器，因为您可以将一个元素设置的位与另一个元素设置的位与 OR 组合在一起，OR 是关联和可交换的。

关于apache-spark - Spark join 总是卡在同一个任务上，我该如何调试？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35638654/

24

4

0

文章推荐： java - ObjectInputStream 导致崩溃

文章推荐： authentication - Ionic Framework 和 Firebase 持久身份验证

文章推荐： graph - ArangoDB - 如何在图遍历中执行计算？

android - 如何在 KitKat 中将文件写入可移动 SD 卡(不是外部 SD 卡)？
在 Android 的 API > 19 中是否有任何方法可以获取可移动 SD 卡的路径？与外部 SD 卡一样，我们有 Environment.getExternalStorageDirectory
Android API 19 及更高版本。写入 microSD 卡(外置 SD 卡)
一些 Android 设备有 microSD(或其他存储卡)插槽，通常安装为 /storage/sdcard1 据我所知，自 Android 4.4 起 Google 限制了对此内存的访问，并在 An
Java 卡检测到与智能卡的通信错误
我使用 Java Card 2.1.2 SDK 和 GPShell 作为与设备通信的方式在 Java Card 上构建一个项目。我从 GpShell 测试了 helloworld 示例，并成功发送了
安卓广播接收器和双 SIM 卡
我开发了一个应用程序，它有一个来电接收器，它适用于所有手机。一位用户有一部双 SIM 卡安卓手机。该应用程序适用于第一张 SIM 卡。但是当有人调用他的第二张 SIM 卡时，我们的应用程序不会被调用。
具有固定高度和响应图像的 CSS 卡
我有一个带预览的文件输入。这是笔 Codepen 我想强制高度，我无法理解我该怎么做。我想将此组件的高度固定为 300px(示例)，我还需要保持加载图像的正确纵横比，用灰色背景填充空白。现在我保持宽
gsm - 提供商如何检测到重复的 SIM 卡？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 6年前关闭。 Improve this qu
kivy - 访问可移动 SD 卡
我正在使用此代码访问 SD card : import os from os.path import join from jnius import autoclass #from android.pe
io - 通过无竞争条件的缓冲区将数据写入 SD 卡
我正在为数据记录设备编写固件。它以 20 Hz 的频率从传感器读取数据并将数据写入 SD 卡。但是，向SD卡写入数据的时间并不一致(大约200-300 ms)。因此，一种解决方案是以一致的速率将数据写
html - Bootstrap ，卡+视频不适合手机屏幕
我正在使用以下代码将视频放到网站上，但是在垂直方向上，手机屏幕上只能看到视频的左半部分我不是网络开发人员。有人可以告诉我确切的内容吗，如何使其正确放置在手机屏幕上？是在youtube iframe
javascript - 在单行而不是列中显示 Vuetify 卡？
我正在使用 Vuetify 1.5 和 Vuetify 网格系统来设置我的布局。现在我有一个组件 HelloWorld我将其导入到我的 Parent 中成分。我已经在我的 HelloWorld 中设置
python - 如何并排打印我的 ASCII 卡？
我使用 python 制作了一个简单的二十一点游戏。我制作了游戏的其余部分，但我正在努力放入 ASCII 卡，所以这只是代码的一小部分。我尝试将 * len(phand) 放在附加行的末尾。虽然这确实
twitter - 如何测试 Twitter 卡？
我正在使用玩家卡设置 Twitter 卡。它可以在预览工具中运行，但文档说它需要在“twitter.com 现代桌面浏览器？ native iOs 和 Android Twitter 应用程序？mob
gsm - 如何以编程方式访问 SIM 卡？
任何旧的 GSM 兼容 SIM 卡(3G USIM 的奖励)。我想我需要一些硬件？谁能为业余爱好者推荐一些便宜的东西，以及一些更专业的东西？我认为会有一个带有硬件的 API 的完整文档，所以也许这
python - 如何并排打印我的 ASCII 卡？
我使用 python 制作了一个简单的二十一点游戏。我制作了游戏的其余部分，但我正在努力放入 ASCII 卡，所以这只是代码的一小部分。我尝试将 * len(phand) 放在附加行的末尾。虽然这确实
process - 用于并行计算的 CPU 卡？
我记得前一段时间读到有 cpu 卡供系统添加额外的处理能力来进行大规模并行化。任何人都有这方面的经验和任何资源来研究项目的硬件和软件方面吗？这项技术是否不如传统集群？它更注重功率吗？最佳答案有两个
java - 外部存储并不指大容量内部 SD 卡
我检查外部存储是否已安装并且可用于读/写，然后从中读取。我使用的是确切的官方 Android 示例代码 ( from here )。它说外部存储未安装。 getExternalFilesDir(nu
Android 应用程序下载到 SD 卡
在 Android 2.1 及更低版本中，Android 应用程序可以请求下载到 SD 卡上吗？另外我想知道应用程序是否可以请求一些包含视频的文件夹下载到 SD 卡上？以及如何做到这一点？提前致谢。
c++ - 驱动程序拒绝访问 PCI 卡
我们编写了一个 Windows 设备驱动程序来访问我们的自定义 PCI 卡。驱动程序使用 CreateFile 获取卡的句柄。我们最近在一次安装中遇到了问题，卡似乎停止工作了。我们尝试更换卡(更换似
Android:查找设备是否具有双 SD 卡
有些新设备(例如 Samsung Galaxy)带有两个 SD 卡。我想知道是否有任何方法可以确定设备是否有两张 SD 卡或一张 SD 卡。谢谢最佳答案我认为唯一的方法是使用检查可用根的列表 F
android - 无法访问 SD 卡
我正在尝试将文件读/写到 SD 卡。我已经尝试在我的真实手机和 Eclipse 中的模拟器上执行此操作。在这两种设备上，对/mnt/sdcard/或/sdcard 的权限仅为“d--------”，我

首页

博学

6Ren·AI

商城

apache-spark - Spark join 总是卡在同一个任务上，我该如何调试？