gpt4 book ai didi

dataframe - 删除HDFS文件中的数据并调整Spark

转载 作者:行者123 更新时间:2023-12-02 19:54:50 25 4
gpt4 key购买 nike

我有一个脚本删除存储在 HDFS 中的txt文件中的行。数据按天划分,每个分区少于10MB数据。

该代码将所有数据读入一个数据帧(DF1),保持跟踪或src数据,因此我可以在最后重写数据。
然后根据另一个单列数据帧(DF2),删除DF2上包含任何字符串的所有行。

尽管代码需要很长时间才能完成,但数据量并不大。

如何配置Spark运行?更多执行器,内核,内存?
还是我可以以其他方式处理数据框?

最佳答案

广播DF2并运行相同的过程。这样可以提高性能。

为了进一步减少运行时间,可以增加执行程序(--num-executor)的数量。由于每个分区大约只有10Mb,因此建议您为每个执行程序使用最少的资源(--executor-memory 1G --executor-cores 1)。

这些是可以立即用于减少运行时间的几个选项。通过进一步分析数据和使用的序列化,您可以尝试进一步优化它。

关于dataframe - 删除HDFS文件中的数据并调整Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58349854/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com