r - Sparklyr:sdf_copy_to失败，包含350 MB数据集-6ren

r - Sparklyr:sdf_copy_to失败，包含350 MB数据集

转载作者：行者123 更新时间：2023-12-02 20:56:48

25

4

我在尝试使用sparklyr::spark_write_csv()编写2个数据集时遇到问题。这是我的配置:

# Configure cluster
config <- spark_config()
config$spark.yarn.keytab <- "mykeytab.keytab"
config$spark.yarn.principal <- "myyarnprincipal"
config$sparklyr.gateway.start.timeout <- 10
config$spark.executor.instances <- 2
config$spark.executor.cores <- 4
config$spark.executor.memory <- "4G"
config$spark.driver.memory <- "4G"

config$spark.kryoserializer.buffer.max  <- "1G"

Sys.setenv(SPARK_HOME = "/opt/cloudera/parcels/CDH/lib/spark")
Sys.setenv(HADOOP_CONF_DIR = '/etc/hadoop/conf.cloudera.hdfs')
Sys.setenv(YARN_CONF_DIR = '/etc/hadoop/conf.cloudera.yarn')

# Configure cluster
sc <- spark_connect(master = "yarn-client", config = config, version = '1.6.0')

成功创建spark上下文后，我试图使用spark_write_csv()将2个数据集保存在hdfs上。作为中间步骤，我需要将数据帧转换为tbl_spark。
不幸的是，我只能正确地保存第一个，而第二个(较长，但对于Hadoop标准，即360 MB绝对不大)需要很长时间，最终会崩溃。

# load datasets
tmp_small <- read.csv("first_one.csv", sep = "|") # 13 MB
tmp_big <- read.csv("second_one.csv", sep = "|") # 352 MB

tmp_small_Spark <- sdf_copy_to(sc, tmp_small, "tmp_small", memory = F, overwrite = T)
tables_preview <- dbGetQuery(sc, "SHOW TABLES")

tmp_big_Spark <- sdf_copy_to(sc, tmp_big, "tmp_big", memory = F, overwrite = T) # fail!!
tables_preview <- dbGetQuery(sc, "SHOW TABLES")

这可能是配置问题，但我无法弄清楚。
这是错误: |================================================================================| 100% 352 MB

Error in invoke_method.spark_shell_connection(sc, TRUE, class, method,  : 
No status is returned. Spark R backend might have failed.

谢谢

最佳答案

我在加载较大的文件时也遇到了问题。尝试将其添加到spark连接配置文件中:

config$spark.rpc.message.maxSize <- 512

不过，这是一种解决方法。

关于r - Sparklyr:sdf_copy_to失败，包含350 MB数据集，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44278085/

25

4

0

文章推荐： docker - Docker 是否应该在所有容器关闭时释放所有内存？

文章推荐： javascript - 为什么这个反转条件动画不起作用？

文章推荐： docker - 多个Docker-Compose项目共享服务

Github-文件XYZ为126.80 MB;这超出了GitHub的文件大小限制100.00 MB
我有一个本地存储库，有一个大文件被意外添加到其中。现在，即时通讯几乎落后了100次提交。当我尝试推送到GitHub时，它给了我一个错误。我需要做任何我需要做的事情，以便能够推送此存储库的其余部分。
cocoa - 我想为 700 MB 到 800 MB 图像大小分配内存
我正在尝试分配内存NSImage*originalLocationImage; NSURL *fileURL = [NSURL fileURLWithPath:originalLocation];//
hadoop - 我该如何在CDH4.7中编辑InputSplit大小？默认情况下，它是64 MB，但是我想提到它为1 MB
我如何以及在何处可以编辑CDH4.7中的输入拆分大小，默认情况下为64 MB，但我想将其称为1MB，因为我的MR作业运行缓慢并且我想提高MR作业的速度。我想需要编辑cor-site属性IO.file.
java - JVM 总内存通常为 64 MB 但有时只有 2 MB
我创建了一个 DLL，其中包含一个从 C# 代码调用的 JNI 函数。作为长时间运行的 GUI 应用程序的 C# 应用程序多次调用该函数。我的 JNI 函数调用 JNI_GetCreatedJava
hadoop - 以 MB 或 Mb 为单位的 mapreduce 指标中的吞吐量
运行 TestDFSIO 后，我得到了以下指标: 2019-04-30 09:50:35,790 INFO fs.TestDFSIO: Date & time: Tue Apr
ios - 为什么会出现 4 MB 使用率和 320 MB 可用内存警告？
我正在测试连接到 Xcode 5.1.1 的运行 iOS 7.1 的 iPhone 4。我不明白为什么当仪器显示我的应用程序仅使用几兆字节并且有大量可用内存时我会收到内存警告甚至崩溃(见附件)。有什么
sql - 我想将 n MB 的数据添加到我的数据库中，并且我希望数据库大小仅增长 n MB
我有一个假设的值数据库，每个值的大小为 4 个字节(即 4,000,000,000)。所有值都存在于数据库中，因此它以 0 开头，以最大的 4 字节数字结尾。只有一次，我想通过将 1 到 10000
python - 磁盘上有 70 MB 但内存中有 500 MB 的列表
我有一个字符串元组的 python 列表，格式如下:lst = [('xxx', 'yyy'), ...etc]。该列表包含大约 8154741 个元组。我使用了一个分析器，它说该列表占用大约 500
azure - 如何将 azure 事件中心的消息限制大小从 1 MB 增加到发送 4 MB？
我需要每秒发送 1,00,000 批记录。我在实验后得到的是 azure event hub 的事件限制为 10,00,000 个字节。我的每条记录有 145 字节，我必须发送的总记录是 1,00,0
hadoop - HDFS的默认 block 大小为128 MB，而Hive的默认 strip 大小为250 MB
HDFS块大小默认为128 MB(来源:https://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/hdfs-defau
azure - 如何将 azure 事件中心的消息限制大小从 1 MB 增加到发送 4 MB？
我需要每秒发送 1,00,000 批记录。我在实验后得到的是 azure event hub 的事件限制为 10,00,000 个字节。我的每条记录有 145 字节，我必须发送的总记录是 1,00,0
java - GC 分配的堆空间为 2048 mb 后，堆内存未释放小于 1200 mb
我正在 Linux 机器上运行 Jboss EAP 服务器 6.1。分配的堆内存如下。 JAVA_OPTS="-Xms2048m -Xmx2048m -XX:MaxPermSize=256m -Dja
php - BLOB 下载截断为 1 MB 脚本适用于小于 1 MB 的文件
我最近提出并解决了一个关于将大于 2 MB 的 .PDF 文件作为 BLOBS 上传到 MySQL 数据库的问题。我不得不更改我的 php.ini 文件中的一些设置和 MySQL 的最大数据包设置。然
c# - 在 C# 中生成 1 MB(或 n MB)文本文件
我需要创建一个文本文件(字母数字)，其大小(精确或接近)以 MB 为单位等于我输入的数字，例如 1 MB。我试图生成一个字符串，认为一个字符是 16 位或 2 字节，所以:1KB = 1024 字节
hadoop - 这不正常吧？所需的 AM 内存 (471859200+47185920 MB) 高于最大阈值 (2048 MB)
我已经阅读了很多有关通过设置 yarn.scheduler.maximum-allocation-mb 来解决此类问题的内容，我已将其设置为 2gb，因为我当前正在运行 select count(*)
java - 文件核心为 131.63 MB；这超出了 GitHub 的文件大小限制 100.00 MB
这个问题在这里已经有了答案: this exceeds GitHub's file size limit [duplicate] (3 个回答) 1年前关闭。核心程序崩溃数据。我不知道核心文件是从
visual-studio-code - Electron 应用程序的大小(对于Linux为450 mb，对于Windows为238 mb)，如何针对Visual Studio代码减小它
我已经建立了一个 Electron 应用程序，并使用 Electron 打包程序对其进行了打包。我制作了238MB的Windows bundle 包，而Linux版本是450 MB。我将其与也是 El
java - 使用 4 mb 查找不在 40 亿列表中的整数。但是 4 MB 还不够
这个问题在这里已经有了答案: Generate an integer that is not among four billion given ones (38 个答案) 关闭 9 年前。 Give
mongodb - 为什么 24 MB 的 CSV 数据在 MongoDB 集合中变成了 230 MB？
我的 Meteor 应用程序获取一个 CSV 文件，使用 Baby Parse(Papa Parse for server)对其进行解析，并将数据插入到 MongoDB 集合中。每个 CSV 行都作
amazon-web-services - Amazon SES 的文件限制为 10 MB .. 有没有其他方法可以发送超过 10 MB 的文件？
Amazon SES 有 10 MB 的文件限制我的问题是有没有其他方法可以发送超过 10 MB 的文件？最佳答案这是一个硬限制。您需要做的是包含您当前包含在电子邮件中的 Assets 的

首页

博学

6Ren·AI

商城

r - Sparklyr:sdf_copy_to失败，包含350 MB数据集