gpt4 book ai didi

apache-spark - Spark 在驱动程序中而不是在执行程序中读取 orc 文件

转载 作者:行者123 更新时间:2023-12-04 04:08:46 25 4
gpt4 key购买 nike

我在 s3 中有 30GB 的 ORC 文件(24 部分 * 1.3G)。我正在使用 spark 来读取这个 orc 并进行一些操作。但是根据我观察到的日志,甚至在执行任何操作之前,spark 正在打开并读取 s3 中的所有 24 个部分(仅读取文件需要 12 分钟)。但我担心的是,此时所有这些读取操作都仅在驱动程序中发生,执行程序都处于空闲状态

有人能解释一下为什么会这样吗?有什么方法可以让所有的执行者也进行阅读吗?

这同样适用于 Parquet 吗?

提前致谢。

最佳答案

您是否提供了数据架构?

如果没有,Spark 会尝试获取所有文件的模式,然后继续执行。

关于apache-spark - Spark 在驱动程序中而不是在执行程序中读取 orc 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46929351/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com