- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是 spark 的新手,所以我正在学习来自 sparkbyexamples.com 的精彩教程,在阅读时我发现了这一部分:
Shuffle partition size & Performance
Based on your dataset size, a number of cores and memory PySparkshuffling can benefit or harm your jobs. When you dealing with lessamount of data, you should typically reduce the shuffle partitionsotherwise you will end up with many partitioned files with less numberof records in each partition. which results in running many tasks withlesser data to process.
On other hand, when you have too much of data and having less numberof partitions results in fewer longer running tasks and some times youmay also get out of memory error.
Getting the right size of the shuffle partition is always tricky andtakes many runs with different values to achieve the optimized number.This is one of the key properties to look for when you haveperformance issues on PySpark jobs.
有人可以帮助我了解您如何确定您的工作需要多少随机分区吗?
最佳答案
正如您所说,这很棘手,但这是我的策略:
如果你使用“静态分配”,意味着你告诉 Spark 你想为作业分配多少执行器,那么很简单,分区数可以是executors * cores per executor * factor
。 factor = 1
表示每个执行器将处理 1 个作业,factor = 2
表示每个执行器将处理 2 个作业,依此类推
如果您使用的是“动态分配”,那就更棘手了。您可以在此处阅读详细说明 https://databricks.com/blog/2021/03/17/advertising-fraud-detection-at-scale-at-t-mobile.html .一般的想法是你需要回答很多问题,比如你的数据有多大(以千兆字节为单位),它的结构是什么样的(有多少文件,多少文件夹,多少行等),你会如何阅读它(来自 hdfs 或来自 hive 或来自 jdbc),你有多少资源(内核、执行器、内存),……然后你一遍又一遍地运行和基准测试,以找到适合你的情况的最佳点。
更新#1:
So what is the general industry practice, will a company simply use first tactic and allocate more hardware or they will use dynamic allocation?
通常,如果您有本地 Hadoop 环境,您可以在静态(默认模式)和动态分配(高级模式)之间进行选择。此外,我经常从动态开始,因为我不知道数据有多大及其转换,所以坚持使用动态让我可以灵活地扩展我的工作,而无需过多考虑 Spark 配置。但如果您愿意,您也可以从静态开始,没有什么能阻止您这样做。
然后最终,当涉及到生产过程时,您还可以在静态(非常稳定但消耗更多资源)和动态(不太稳定,即有时由于资源分配而失败,但节省资源)之间进行选择。
最后,大多数 Hadoop 云解决方案(如 Databricks)默认带有动态分配,成本较低。
关于apache-spark - 您如何确定 Spark 应用程序的随机分区?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67654124/
我是 C 语言新手,我编写了这个 C 程序,让用户输入一年中的某一天,作为返回,程序将输出月份以及该月的哪一天。该程序运行良好,但我现在想简化该程序。我知道我需要一个循环,但我不知道如何去做。这是程序
我一直在努力找出我的代码有什么问题。这个想法是创建一个小的画图程序,并有红色、绿色、蓝色和清除按钮。我有我能想到的一切让它工作,但无法弄清楚代码有什么问题。程序打开,然后立即关闭。 import ja
我想安装screen,但是接下来我应该做什么? $ brew search screen imgur-screenshot screen
我有一个在服务器端工作的 UDP 套接字应用程序。为了测试服务器端,我编写了一个简单的 python 客户端程序,它发送消息“hello world how are you”。服务器随后应接收消息,将
我有一个 shell 脚本,它运行一个 Python 程序来预处理一些数据,然后运行一个 R 程序来执行一些长时间运行的任务。我正在学习使用 Docker 并且我一直在运行 FROM r-base:l
在 Linux 中。我有一个 c 程序,它读取一个 2048 字节的文本文件作为输入。我想从 Python 脚本启动 c 程序。我希望 Python 脚本将文本字符串作为参数传递给 c 程序,而不是将
前言 最近开始整理笔记里的库存草稿,本文是 23 年 5 月创建的了(因为中途转移到 onedrive,可能还不止) 网页调起电脑程序是经常用到的场景,比如百度网盘下载,加入 QQ 群之类的 我
对于一个类,我被要求编写一个 VHDL 程序,该程序接受两个整数输入 A 和 B,并用 A+B 替换 A,用 A-B 替换 B。我编写了以下程序和测试平台。它完成了实现和行为语法检查,但它不会模拟。尽
module Algorithm where import System.Random import Data.Maybe import Data.List type Atom = String ty
我想找到两个以上数字的最小公倍数 求给定N个数的最小公倍数的C++程序 最佳答案 int lcm(int a, int b) { return (a/gcd(a,b))*b; } 对于gcd,请查看
这个程序有错误。谁能解决这个问题? Error is :TempRecord already defines a member called 'this' with the same paramete
当我运行下面的程序时,我在 str1 和 str2 中得到了垃圾值。所以 #include #include #include using namespace std; int main() {
这是我的作业: 一对刚出生的兔子(一公一母)被放在田里。兔子在一个月大时可以交配,因此在第二个月的月底,每对兔子都会生出两对新兔子,然后死去。 注:在第0个月,有0对兔子。第 1 个月,有 1 对兔子
我编写了一个程序,通过对字母使用 switch 命令将十进制字符串转换为十六进制,但是如果我使用 char,该程序无法正常工作!没有 switch 我无法处理 9 以上的数字。我希望你能理解我,因为我
我是 C++ 新手(虽然我有一些 C 语言经验)和 MySQL,我正在尝试制作一个从 MySQL 读取数据库的程序,我一直在关注这个 tutorial但当我尝试“构建”解决方案时出现错误。 (我正在使
仍然是一个初学者,只是尝试使用 swift 中的一些基本函数。 有人能告诉我这段代码有什么问题吗? import UIKit var guessInt: Int var randomNum = arc
我正在用 C++11 编写一个函数,它采用 constant1 + constant2 形式的表达式并将它们折叠起来。 constant1 和 constant2 存储在 std::string 中,
我用 C++ 编写了这段代码,使用运算符重载对 2 个矩阵进行加法和乘法运算。当我执行代码时,它会在第 57 行和第 59 行产生错误,非法结构操作(两行都出现相同的错误)。请解释我的错误。提前致谢:
我是 C++ 的初学者,我想编写一个简单的程序来交换字符串中的两个字符。 例如;我们输入这个字符串:“EXAMPLE”,我们给它交换这两个字符:“E”和“A”,输出应该类似于“AXEMPLA”。 我在
我需要以下代码的帮助: 声明 3 个 double 类型变量,每个代表三角形的三个边中的一个。 提示用户为第一面输入一个值,然后 将用户的输入设置为您创建的代表三角形第一条边的变量。 将最后 2 个步
我是一名优秀的程序员,十分优秀!