gpt4 book ai didi

hadoop - 从非 hdfs 源读取时 namenode.LeaseExpiredException 而 df.write.parquet

转载 作者:可可西里 更新时间:2023-11-01 15:57:37 26 4
gpt4 key购买 nike

我有一个在 yarn 集群上运行并使用 databricks 库将 csv 转换为 parquet 的 spark 代码。

当 csv 源是 hdfs 时它工作正常。但是当 csv 源不是 hdfs 时(通常是这种情况),我遇到了这个异常。它不应该发生,因为相同的代码适用于 hdfs csv 源。

问题的完整链接: https://issues.apache.org/jira/browse/SPARK-19344

最佳答案

如评论中所述。

当文件位于驱动程序节点上,但节点无法访问时,读取将失败。

当使用读取输入文件时(例如 spark 2.0 中的 spark.read),所有执行程序节点都应该可以访问这些文件(例如当文件在 HDFS 上时,cassandra 等)

关于hadoop - 从非 hdfs 源读取时 namenode.LeaseExpiredException 而 df.write.parquet,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41822872/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com