gpt4 book ai didi

apache-spark - 在 Spark 中读取大型 gz 文件

转载 作者:行者123 更新时间:2023-12-04 05:28:31 30 4
gpt4 key购买 nike

我有 2 个 gzip 文件,每个大约 30GB,并编写了 spark 代码来分析它们。 spark 集群有 4 个工作节点(28GB RAM 和 4 个内核)和 2 个头节点(64GB RAM)。

我正在使用 sc.textFile(histfile,20) 读取这 2 个 gzip 文件并并行化它们。该作业分为 3 个阶段 - reduceByKeyreduceByKeysaveAsTextFile。由于有 2 个文件,因此目前仅使用 2 个 worker。

已经耗时 4 个多小时,第一阶段仍未完成。当每个 gzip 文件的大小为 100GB-200GB 时,运行 spark 作业的正确方法是什么。

最佳答案

gzip 文件不可拆分,因此您的第一阶段将产生两个 map task ,并且第一阶段通过需要很长时间。

请在第二阶段之前重新分区,以便更好地分配以 reduce task 。

关于apache-spark - 在 Spark 中读取大型 gz 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47444207/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com