- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在运行一个 Spark 作业,它花费了很长时间来处理输入文件。输入文件为 6.8 GB Gzip 格式,包含 1.1 亿行文本。我知道它是 Gzip 格式,所以它不可拆分,并且只有一个执行程序将用于读取该文件。
作为调试过程的一部分,我决定只看看将 gzip 文件转换为 parquet 需要多长时间。我的想法是,一旦我转换为 parquet 文件,然后如果我在该文件上运行我的原始 Spark 作业,在这种情况下它将使用多个执行程序并且输入文件将被并行处理。
但即使是小工作也比我预期的要花更长的时间。这是我的代码:
val input = sqlContext.read.text("input.gz")
input.write.parquet("s3n://temp-output/")
当我在我的笔记本电脑(16 GB RAM)中提取该文件时,它只用了不到 2 分钟。当我在 Spark 集群上运行它时,我的预期是它会花费相同甚至更少的时间,因为我使用的执行程序内存是 58 GB。大约用了 20 分钟。
我在这里错过了什么?如果这听起来很业余,我很抱歉,但我是 Spark 的新手。
在 gzip 文件上运行 Spark 作业的最佳方式是什么?假设我没有选择以其他文件格式(bzip2、snappy、lzo)创建该文件。
最佳答案
在执行输入-处理-输出类型的 Spark 作业时,需要考虑三个不同的问题:
在您的情况下,输入并行度为 1,因为在您的问题中您声称您无法更改输入格式或粒度。
您基本上也没有进行任何处理,因此您无法在那里获得任何 yield 。
但是,您可以控制输出并行度,这会给您带来两个好处:
多个 CPU 将写入,从而减少写入操作的总时间。
您的输出将拆分为多个文件,以便您在以后的处理中利用输入并行性。
要增加并行度,您必须增加分区的数量,这可以通过 repartition()
来实现,例如,
val numPartitions = ...
input.repartition(numPartitions).write.parquet("s3n://temp-output/")
在选择最佳分区数时,需要考虑许多不同的因素。
在不知道您的目标和限制的情况下,很难提出可靠的建议,但这里有一些通用的指导原则:
由于您的分区不会倾斜(上述 repartition
的使用将使用纠正倾斜的散列分区器),如果您设置分区等于执行器内核的数量,假设您使用的节点具有足够的 I/O。
当您处理数据时,您确实希望整个分区能够“适应”分配给单个执行程序内核的 RAM。 “适合”在这里意味着什么取决于你的处理。如果您正在执行简单的 map
转换,则可能会流式传输数据。如果您正在做一些涉及订购的事情,那么 RAM 需要大幅增长。如果您使用的是 Spark 1.6+,您将受益于更灵活的内存管理。如果您使用的是早期版本,则必须更加小心。当 Spark 必须开始“缓冲”到磁盘时,作业执行就会停止。磁盘上的大小和内存中的大小可能非常非常不同。后者根据您处理数据的方式以及 Spark 可以从谓词下推中获得多少好处(Parquet 支持)而有所不同。使用 Spark UI 查看各个作业阶段需要多少 RAM。
顺便说一句,除非您的数据具有非常特定的结构,否则不要对分区号进行硬编码,因为这样您的代码将在不同大小的集群上以次优方式运行。相反,使用以下技巧来确定集群中执行程序的数量。然后,您可以根据所使用的机器乘以每个执行程序的内核数。
// -1 is for the driver node
val numExecutors = sparkContext.getExecutorStorageStatus.length - 1
作为引用,在我们的团队中,我们使用相当复杂的数据结构,这意味着 RAM 大小 >> 磁盘大小,我们的目标是将 S3 对象保持在 50-250Mb 范围内,以便在每个节点上进行处理执行器核心具有 10-20Gb RAM。
希望这对您有所帮助。
关于hadoop - 具有 gzip 格式的大文本文件的 Spark 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37760736/
我正在尝试创建有效的 gzip 文件(可以使用标准 Linux gzip 解压缩),其中的数据使用 DEFLATE 算法和静态/预设字典编码。 我已阅读 DEFLATE 的两个规范和 gzip ,而且
我刚刚搜索了gzip和 Deflate ,并发现 Deflate 更好。 GZip or Deflate for HTTP compression Why use deflate instead of
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求提供代码的问题必须表现出对所解决问题的最低限度的了解。包括尝试的解决方案、为什么它们不起作用以及预期结果
我一直在寻找 Gzip 是否支持多部分文件压缩。 From what I have seen so far it does not, but how come 7z allows multipart
我可以连接两个已经 gzip 的文件(使用 gzip)然后用枪压缩它们吗? 截至今天,我从远程服务器下载 gzip 压缩文件,单独对其进行 gunzip,然后将它们合并。 希望通过合并 gzipped
我正在创建两个 gzip 文件,一个只包含一个 gzip 成员,而第二个包含 2 个 gzip 成员(两个文件连接成一个 gzip 文件)。 当我尝试通过网络服务器下载此文件时,chrome 会很好地
当我对文件夹进行去皮重和 gzip 压缩时,每次我都会得到不同的文件大小。 目录内容不变,没有变化。压缩后的文件大小变化 20 到 100 字节。这是正常行为吗? 我的数据会受到影响吗? 谢谢 最佳答
比方说 file.txt.gz有 2GB,我想看到最后 100 行左右。 zcat
我一直听说对您的网站进行 gzip 压缩是加快交付速度的良好做法。我的网站总体负载非常大,我还应该研究 gzip 吗?我还了解了使用 gzip 的缺点,例如解压缩内容以便浏览器显示所需的时间。这是真的
下载 jQuery 的生产副本时,链接旁边显示该文件为 32K Minified & Gzipped。我得到了 Minified,但是 Gzipped 是什么意思? 它是否被网络服务器压缩,如 Apa
我的网站很高兴根据以下内容进行 Gzip 压缩: http://www.gidnetwork.com/tools/gzip-test.php 但是,当我通过 Yslow 运行它时,我得到了 Gzip
我使用命令 tar 一组文件:tar -czvf file.tar.gz file/ 然后复制到 USB(ext4 格式),我检查了我可以解压它。重装系统后,挂载usb时发生了一些错误,我执行fsck
我有一个提供小部件的网络服务。为了可扩展性,我想在 Amazon S3 上保留 js 文件的 gzip 版本。问题是不能接受 gzip 文件的浏览器将不会被提供。 任何人都知道我在哪里可以找到统计数据
我正在使用 Chrome 和 Firefox 下的 Yslow 工具查看我的开发站点,其中一项建议是我对适当的内容进行 gzip。作为起点,我刚刚在我的 [/] 配置中添加了“tools.gzip.o
我正在开发一个网站,我正在使用 gzip.exe 来预压缩 css 和 js 文件(只有 1 个 css 文件从 4.53 KB 到 1.50 KB,还有一个 js 文件包含 jquery 和一些来自
我们必须使用什么类型的响应监听器来处理 Android Volley 的 gzip 响应? 如果使用 String 监听器,则响应似乎会丢失其编码。 你如何使用 Volley 处理 gzip 响应?
我用 Fiddler调试我的应用程序。每当响应被服务器压缩,而不是解压缩响应时,Fiddler 显示不可读的二进制数据: /* Response to my request (POST) */ HTT
我通常使用tar zcvf压缩并使用tar zxvf解压缩(由于习惯使用gzip)。 我最近购买了一个具有超线程功能的四核 CPU,因此我有 8 个逻辑核心,并且我注意到许多核心在压缩/解压缩期间未使
我正在使用 Google Cloud Storage 控制台上传文件。我没有使用任何命令行工具。 我想在元数据中将 Content-Encoding 设置为 gzip(-z 选项)。 请看下面的截图,
我正在将mysqldump的结果用管道传输到gzip,gzip的速度似乎大大落后 gzip: 34.9MiB 0:01:54 [ 218kiB/s] mysqldump: 735MiB 0:01:5
我是一名优秀的程序员,十分优秀!