scala - Spark : Would a dataframe repartitioned to one node experience a shuffle when a groupBy is called on it?-6ren

scala - Spark : Would a dataframe repartitioned to one node experience a shuffle when a groupBy is called on it?

转载作者：可可西里更新时间：2023-11-01 15:45:52

26

4

假设我有一些数据都在同一个分区上(我之前在数据帧上执行了 .coalesce(1))。我现在想对数据进行分组并对其进行聚合。如果我在数据框上使用 .groupBy，这些组会被放置到不同的节点上吗？

如果这是真的，我想避免这种情况，因为我想对这些组执行这些计算而不需要过多改组。

最佳答案

首先，coalesce(1) 并不能保证你的所有数据都在一个节点中，要确保你必须使用 repartition(1)，这将迫使您将所有数据统一在一个节点中。 coalesce 仅对同一节点中的分区进行分组，因此如果您的数据分布在 5 个节点中(每个节点中有多个分区)，它将在最后保留 5 个分区。 repartition 强制洗牌，将所有数据移动到单个节点。

但是，如果您关心的是聚合中的分区数量，这取决于，如果聚合只是您所有数据的reduce，spark sql 将尝试在每个节点中首先减少，然后然后减少每个节点的结果，一个例子将是一个计数。但是对于桶化聚合，比如计算一个id的元素数量，spark做的是首先在每个节点中减少，然后将数据洗牌，放入桶中，以确保每个节点的所有减少，对于相同的id在同一个节点中，并再次减少它们。桶的数量是通过属性 spark.sql.shuffle.partitions 配置的，每个桶都将作为您作业中的一个任务执行。请小心，因为将 spark.sql.shuffle.partitions 设置为 one 可能会使进程的其他部分变慢，例如连接或大聚合，或者导致内存不足错误。

关于scala - Spark : Would a dataframe repartitioned to one node experience a shuffle when a groupBy is called on it?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54982575/

26

4

0

文章推荐： apache-spark - 使用的 YARN vCores : Spark on YARN

文章推荐： c++ - 如何让 gcc 为所有符号名称添加前缀

文章推荐： c++ - 在函数声明中，传递一个固定大小的数组意味着什么？

java - 非技术问题 : Knowledge > experience or experience > knowledge?
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
google-experiments - 从同一页面对 Google Analytics Experiments 运行多个实验？
有谁知道我如何在两个页面(原始和变体)上同时设置和运行多个实验(或单个实验)，并带有十几个指向注册页面的链接，以确定这两种变体中的哪一个产生更好的转化(有多少人点击进入两种变体中的任何一种的注册页面，
user-experience - 推荐的最小按钮尺寸
在正常条件下是否有推荐的最小按钮尺寸？我所说的“推荐”是指一些文件规定的，例如: Apple HCI 指南 Windows 用户体验指南或一些 ISO 标准.. “正常”条件是指: 桌面/办公室使
user-experience - 从设备使用中检测手感
我们是否可以引用任何证据来帮助确定一个人是左手还是右手使用设备(智能手机/平板电脑)？我的直觉是，也许只有在用户操纵某种屏幕输入时，您才能够使用加速度计数据来检测轻微的倾斜。我要寻找的答案可能是这
user-experience - 如何收集客户反馈？
关闭。这个问题是opinion-based .它目前不接受答案。想改进这个问题？更新问题，以便 editing this post 提供事实和引用来回答它. 8年前关闭。 Improve this
user-experience - 如何鼓励用户填写长申请表？
我能想到的是根据用户的地理信息预先填充某些表单输入元素。您还能想到哪些其他方法来加快用户在长申请表上的输入速度？或者至少让他们专注于填写申请表？最佳答案如果您的表格很长，请尝试将其修剪掉。不要
user-experience - 你如何找出用户真正想要什么？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
user-experience - 拥有漂亮的小工具对于编程技能有多重要？
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 7 年前。 Improve
user-experience - 用户仪表板示例
有什么地方可以让我查看一些用户仪表板的 UX 模板？显示客户的订单历史记录、地址之类的东西？最佳答案我不确定您是指用户的仪表板还是企业使用的显示用户数据的仪表板。这些是后者——它们可能会给你一些灵
dart - 默认情况下不可为空 : how to enable the experiment?
我刚刚在 DartPad 中尝试了以下操作: void main() { int? x; } 并得到以下错误: Error compiling to JavaScript: main.dart:2
json - GWT/ cometd : any experience?
是否有任何方法可以从 GWT“订阅”JSON 对象流并监听保持事件连接上的传入事件，而无需尝试一次获取所有事件？我相信这项技术的流行词是“Comet”。假设我有 HTTP 服务，该服务打开保持事件连
user-experience - 对于非程序员用户来说最好的用户体验是什么？逗号分隔的标签还是空格分隔的标签？
我正在为教师(非程序员)创建一个社交网站，教师可以在上面添加事件、链接、练习、技巧、类(class)计划、书籍等。我希望他们能够像我们在 StackOverflow 所做的那样为这些项目中的每一个添
security - Lua : what experience is there? 的功能
已经有some discussion on the cap-talk mailing list围绕 Lua 和 Javascript 是否支持对象能力模型，得出的结论是，由于支持通过 setfenv
node.js - 实验室返回错误无方法 'experiment'
我正在为一个函数编写测试代码，该函数将检查 Twitter 中是否存在用户名。我正在使用 Hapi 框架和 Lab 进行测试。当我运行 npm test 时，出现以下错误: > NameGen@0.
paypal web experience 配置文件列表为空但无法创建新配置文件
我使用 PayPal REST API 在我的网上商店应用程序中创建结帐流程。几乎一切正常，但 Web 体验配置文件除外。到目前为止，我尝试检查具有特定名称的配置文件是否已经存在(因为网络应用程序之
tridion - 如何在 Experience Manager 中限制给定页面类型的内容类型
Experience Manager (XPM)(SDL Tridion 2011 SP1 的用户界面更新)允许管理员创建页面类型，其具有与页面一样的组件演示，但还可以添加有关如何创建和允许其他内容类
events - Google Analytics Experiments - 获取实验变体
我正在测量两个站点之间的转化率 - 一个站点 ( abc.com ) 有一个 iframe，其中包含来自另一个站点 ( cde.com ) 的注册表。我需要衡量真正的转化率，这意味着只有成功的注册。为
Tridion Experience Manager (XPM) 实现
我正在尝试了解实现 Tridion XPM 的不同工件。不幸的是，我没有找到任何文章可以回答我的问题。例如，内容交付服务器(在 WebSphere 上)可以有四种不同的应用程序，一种用于内容交付(处
python - FMU异常 : Failed to setup the experiment
我有一个在 GT-Suite 中创建的 fmu，并尝试在 python 中使用它。我已经遵循了 jmodelica 教程 from pyfmi import load_fmu model = loa
java - Adobe Experience Manager 中的用户
AEM 是否提供允许再次启用禁用用户的功能？我有一个用例，其中一些项目成员加入了 AEM 项目。管理员禁用其用户以防止登录。现在我必须再次启用它们。最佳答案是的，可以，您可以将帐户设置为 Acti

首页

博学

6Ren·AI

商城

scala - Spark : Would a dataframe repartitioned to one node experience a shuffle when a groupBy is called on it?