gpt4 book ai didi

hadoop - LeaseExpiredException关于Spark中的动态分区

转载 作者:行者123 更新时间:2023-12-02 20:48:57 26 4
gpt4 key购买 nike

我正在执行Spark作业,试图从非分区表中读取数据并创建分区表。我正在做的事情很简单:

df = sqlContext.read.parquet('/path/to/file')
df.write.partitionBy('partition_col').parquet('/new/path/to/file')

我收到以下错误:

伙计们,我正在做一个 Spark 工作,试图从一个非分区表中读取并创建一个分区表。我在做什么很简单-
df = sqlContext.read.parquet('/path/to/file')
df.write.partitionBy('partition_col').parquet('/new/path/to/file')

我收到以下错误-

错误数据源.DynamicPartitionWriterContainer:尝试尝试尝试_201710160717_0003_m_000111
_0中止了。
错误[执行程序任务启动工作程序-0]执行程序。执行程序:阶段3.0中的任务111.0中的异常(TID 1578)
org.apache.spark.SparkException:写入行时任务失败。

接下来是错误行,

错误[执行程序任务启动工作程序0的执行程序]执行程序。执行程序:阶段3.0中的任务111.1中的异常(TID 1892)
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException):在/ path / to / file / part / _temporary / 0 / _temporary / attempt_201710160719_0003_m_000111_1 / pool_id = 891566 / part上没有租约-r-00111-40dd2140-0666-4890-aad9-12fc8ffd6777.gz.parquet(inode 160527519):文件不存在持有人DFSClient_NONMAPREDUCE_1835537666_63没有任何打开的文件。

是否有人遇到过 Spark 类似的问题,或者是否知道解决问题的方法。我看着google / spark问题吉拉我无法从那里找出解决方案

最佳答案

当基础文件已更改并且您仍在尝试访问该文件或发生超时时,发生错误(据我观察)。

我尝试使用超时选项几次,然后调整了过程以读取和写入不同的位置。为我解决了问题。

关于hadoop - LeaseExpiredException关于Spark中的动态分区,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46772695/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com