gpt4 book ai didi

r - Sparklyr copy_to 失败

转载 作者:可可西里 更新时间:2023-11-01 14:40:08 25 4
gpt4 key购买 nike

我正在使用 Sparklyr 库从 R 读取数据并将数据写入 HDFS。读取数据按预期工作,但写入会出现问题。

为了能够使用 spark_write_csv 函数,我需要将我的 R data.frames 转换为 Spark 对象。我为此使用了 sparklyr sdf_copy_to 函数(也尝试使用 copy_to)。但是,我总是出错

代码:

table1 <- sdf_copy_to(sc,dataframe,OVERWRITE=TRUE)
spark_write_csv(table1, "path")

错误:

Error: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://iacchadoopdev01.dap:8020/tmp/Rtmp2gpelH/spark_serialize_62547a7b0f9ad206fd384af04e585deb3a2636ca7b1f026943d4cc1d11c7759a.csv

有没有人遇到过同样的问题,知道怎么解决的?

一个可能的原因可能是 sdf_copy_to 函数将数据存储到我的 linux/tmp 文件夹中,而 write 函数正在 HDFS/tmp 文件夹中查找数据。

最佳答案

我遇到了同样的问题。您需要将 .csv 放入 hdfs。您可以通过 shell 执行此操作。

您通过 ssh 登录到您的集群。然后使用“put”将 .csv 放入 hdfs。

连接到集群后在shell中写入:

hdfs dfs 'path to local file/file.csv' put 'path to folder in your choosing'

然后您将使用 hdfs 路径加载文件。

关于r - Sparklyr copy_to 失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42535331/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com