gpt4 book ai didi

performance - 有没有办法在读取许多文件时并行化 spark.read.load(string*) ?

转载 作者:行者123 更新时间:2023-12-05 07:08:27 27 4
gpt4 key购买 nike

我注意到在 spark-shell (spark 2.4.4) 中,当我执行一个简单的 spark.read.format(xyz).load("a","b","c",.. .),看起来 spark 使用单个 ipc 客户端(或“线程”)按顺序加载文件 a、b、c、...(它们是 hdfs 的路径)。

这是预期的吗?

我问的原因是,就我而言,我正在尝试加载 50K 个文件,而顺序加载需要很长时间。

谢谢

PS,我试图在源代码中看到它,但不确定是否是这个: https://github.com/apache/spark/blob/branch-2.4/sql/core/src/main/scala/org/apache/spark/sql/DataFrameReader.scala#L180

最佳答案

可能不是我最初问题的确切“答案”,但我找到了我的特殊情况的原因:从名称节点的审计日志中,发现有一些失控的作业 Hook 名称节点,这大大减慢了速度rpc 调用。干掉这些坏工作后,spark的加载速度有了很大的提升。

关于performance - 有没有办法在读取许多文件时并行化 spark.read.load(string*) ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61884853/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com