apache-spark - spark广播变量的缺点是什么？-6ren

apache-spark - spark广播变量的缺点是什么？

转载作者：行者123 更新时间：2023-12-04 17:54:26

25

4

我已经阅读了 SO 中的 spark doc 和其他相关问答，但我仍然不清楚有关 Spark Broadcast 变量的一些细节，尤其是粗体声明:

Spark actions are executed through a set of stages, separated by distributed “shuffle” operations. Spark automatically broadcasts the common data needed by tasks within each stage. The data broadcasted this way is cached in serialized form and deserialized before running each task. This means that explicitly creating broadcast variables is only useful when tasks across multiple stages need the same data or when caching the data in deserialized form is important.

什么是“公共(public)数据”？

如果变量仅在 1 个阶段使用，是否意味着广播它没有用，无论其内存占用如何？

由于广播有效地“引用”了每个执行器上的变量而不是多次复制它，在什么情况下广播是一个坏主意？我的意思是为什么这种广播行为不是默认的 Spark 行为？

谢谢!

最佳答案

您的问题几乎包含了您需要的所有答案。

what is "common data"?

被多个执行器引用/读取的数据。例如，字典查找。假设您有 100 个执行程序运行需要进行大量字典查找的任务。如果没有广播变量，您将在每个执行程序中加载这些数据。使用广播变量，您只需加载一次，所有执行程序将引用同一个字典。因此，您可以节省大量空间。

更多详情: https://blog.knoldus.com/2016/04/30/broadcast-variables-in-spark-how-and-when-to-use-them/

if the variable is only used in 1 stage, does it mean broadcasting it is not useful, regardless of its memory footprint?

不和是。不，如果您的单个阶段有数百到数千个执行者!是的，如果你的舞台上只有很少的执行者。

Since broadcast effectively "reference" the variable on each executor instead of copying it multiple times, in what scenario broadcasting is a BAD idea? I mean why this broadcasting behavior is not the default spark behavior?

以这种方式广播的数据以序列化形式缓存并在运行每个任务之前反序列化。因此，如果正在广播的数据非常非常庞大，那么序列化和反序列化将成为代价高昂的操作。所以在这种情况下你应该避免使用广播变量。

关于apache-spark - spark广播变量的缺点是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41580725/

25

4

0

文章推荐： php - 无法在模块构建器中创建包或在 SuiteCRM 中部署新包

文章推荐： git: merge 时如何不删除文件？

文章推荐： python - Outlook 日历 API - Python

networking - 广播
谁能给我提供代码或链接，以便在可能的情况下使用 UDP 发送和接收广播消息？我一直被困在一个问题中，希望你们能帮助我解决它。谢谢最佳答案这是一个 C# 示例: using System; usi
tensorflow - 如何乘以不同形状的张量？ (广播)
我想将形状为 [a,b,c] 的张量中的元素相乘，每个元素在第 3 维中使用来自形状为 [a,b] 的张量的标量。例如， x = |[1,2][3,4][5,6]| |[1,2][3,4][5,6]
python - TensorFlow 广播
广播是使具有不同形状的数组具有用于算术运算的兼容形状的过程。在 numpy 中，我们可以广播数组。 TensorFlow 图是否支持类似于 numpy 的广播？最佳答案是的，它是支持的。打开终端并
javascript - AngularJS 广播
我有一个刷新功能，需要广播到子 Controller 。我在父 Controller 中做了类似的事情: // Refresh/Cancel $scope.OnGridBODRefre
python - 广播/迭代字典值的有效方法
我正在尝试在计算中使用字典值，如下所示: mydict = dict(zip(['key1', 'key2', 'key3'], [1, 2, 3])) print
Java MPI 广播
刚刚掌握使用 MPI 的 Java 接口(interface)进行并行编程。只是想知道是否有人可以非常简单地解释广播的工作原理？我有以下内容: if (me ==0) { // This is th
广播 Intent 过滤器生成的Android推送通知替换为旧通知
我正在处理一个项目，当我发送消息时，我将它作为通知发送给另一个用户使用广播它工作正常但是当我再次发送新消息然后替换为旧通知而不创建新通知下面是我生成通知的代码 NotificationCompat.
Android视频流Socket MediaRecorder(广播)
我是 android 的初学者。但我非常需要你的帮助。我有一个流媒体视频广播视频项目。我找不到好的示例，在哪里可以实现从摄像机录制视频、将流发送(上传)到服务器以及从服务器下载(获取流)到播放器。请帮
javascript - AngularJS $广播
请帮我解决我的问题。当我从父 Controller 调用并在子 Controller 中捕获时，为什么 $broadcast 函数不起作用？
linux - 广播 socket
我如何从 shell 中看到设置了哪些套接字选项？我特别想知道是否设置了 SO_BROADCAST？最佳答案你看过lsof了吗？关于linux - 广播 socket ，我们在Stack Ove
python - Numpy 广播
当我在 Numpy 中进行此操作时会发生什么？ a = np.ones([500,1]) b = np.ones([5000,])/2 c = a + b # a.shape (500,1) # b.
Android ACTION_DATE_CHANGED 广播
我有一个 Nexus S，当我在手机上手动更改日期时，并不总是广播 ACTION_DATE_CHANGED。如果我将日期从 2014 年 2 月 13 日更改为 2014 年 2 月 14 日，我还没
SpringBoot整合RocketMQ事务/广播/顺序消息
环境：springboot2.3.9RELEASE + RocketMQ4.8.0 依赖 <dependency>
Netty 框架学习 —— UDP 广播
UDP 广播面向连接的传输（如 TCP）管理两个网络端点之间的连接的建立，在连接的生命周期的有序和可靠的消息传输，以及最后，连接的有序终止。相比之下，类似 UDP 的无连接协议中则没有持久化连接的概
angularjs - Angular - 广播，$on 在指令中多次调用
我正在开发一个带有 Angular 的单页应用程序，我需要在两个不同的指令之间进行通信，这些指令基本上没有父子关系。在指令 A 中，我有 2 个地方需要从不同的功能广播相同的事件。在指令 B 中，为
python - 广播 numpy 数组值
我有一个带有多个重复项的主要二维 numpy 数组和一个具有第一个唯一值的辅助数组。 [[ 0 0 1 ] [ 1 0 2 ] [ 2 0 2 ] ... [ 0 0 1 ]
c - 用于自动搜索服务器的 UDP 广播
我正在制作多人网络游戏。现在要连接到服务器，客户端需要服务器的 ip 地址。所以，我的实现方式如下。客户端在广播 IP 和端口 A 上广播其 IP 地址。服务器通过 A 监听它，并且服务器与客户
iphone - 广播 Apple 推送通知
是否可以在没有 Urban Airship 等服务的情况下广播推送通知？谢谢。最佳答案当然可以，但是您需要自己实现整个基础架构。 http://developer.apple.com/libra
optimization - Eigen :按行复制(广播)
我想复制矩阵的每一行 M没有任何复制发生(即通过创建 View ): 0 1 0 1 2 3 -> 0 1 2 3
python - Numpy:分配目的地是只读的 - 广播
我从一个 2D 数组开始，想将它广播到一个 3D 数组(例如，从灰度图像到 rgb 图像)。这是我使用的代码。 >>> img_grey = np.random.randn(4, 4) >>> img

首页

博学

6Ren·AI

商城

apache-spark - spark广播变量的缺点是什么？