r - Sparklyr 的 spark_apply 函数似乎在单个执行程序上运行并且在中等大型数据集上失败-6ren

r - Sparklyr 的 spark_apply 函数似乎在单个执行程序上运行并且在中等大型数据集上失败

转载作者：行者123 更新时间：2023-12-01 11:19:02

34

4

我正在尝试使用 spark_apply 在 Spark 表上运行下面的 R 函数。如果我的输入表很小(例如 5,000 行)，这可以正常工作，但是当表中等大(例如 5,000,000 行)时，大约 30 分钟后会抛出错误:sparklyr worker rscript 失败，检查 worker 日志以获取详细信息

查看 Spark UI 会发现只有一个任务被创建，并且一个执行器被应用到这个任务。

任何人都可以就为什么这个函数对于 500 万行数据集失败提出建议吗？问题可能是让一个执行程序完成所有工作，但失败了吗？

# Create data and copy to Spark
testdf <- data.frame(string_id=rep(letters[1:5], times=1000), # 5000 row table
                 string_categories=rep(c("", "1", "2 3", "4 5 6", "7"), times=1000))
testtbl <- sdf_copy_to(sc, testdf, overwrite=TRUE, repartition=100L, memory=TRUE)

# Write function to return dataframe with strings split out
myFunction <- function(inputdf){
  inputdf$string_categories <- as.character(inputdf$string_categories)
  inputdf$string_categories=with(inputdf, ifelse(string_categories=="", "blank", string_categories))
  stringCategoriesList <- strsplit(inputdf$string_categories, ' ')
  outDF <- data.frame(string_id=rep(inputdf$string_id, times=unlist(lapply(stringCategoriesList, length))),
                  string_categories=unlist(stringCategoriesList))
 return(outDF)
}

# Use spark_apply to run function in Spark
outtbl <- testtbl %>%
  spark_apply(myFunction,
          names=c('string_id', 'string_categories'))
outtbl

最佳答案

sparklyr worker rscript failure, check worker logs for details error 由 driver 节点写入并指出实际错误需要在 worker 日志中找到。通常，可以通过打开 stdout 来访问工作日志。从 Spark UI 中的执行者选项卡；日志应包含 RScript:描述执行程序正在处理的内容以及错误的具体情况的条目。
关于正在创建的单个任务，当columns未指定 spark_apply() 中的类型，它需要计算结果的一个子集来猜测列类型，为避免这种情况，按如下方式传递显式列类型:
outtbl <- testtbl %>% spark_apply( myFunction, columns=list( string_id = "character", string_categories = "character"))
如果使用 sparklyr 0.6.3 , 更新到 sparklyr 0.6.4或 devtools::install_github("rstudio/sparklyr") , 自 sparklyr 0.6.3在启用包分发且每个节点中运行多个执行程序的某些边缘情况下包含不正确的等待时间。
在高负载下，内存不足是很常见的。增加分区数可以解决此问题，因为它会减少处理此数据集所需的总内存。尝试将其运行为:
testtbl %>% sdf_repartition(1000) %>% spark_apply(myFunction, names=c('string_id', 'string_categories'))
也可能是由于函数中的逻辑，函数对某些分区抛出异常，您可以使用 tryCatch() 查看是否属于这种情况。忽略错误，然后找出哪些是缺失值，以及为什么函数会因这些值而失败。我将从以下内容开始:
myFunction <- function(inputdf){ tryCatch({ inputdf$string_categories <- as.character(inputdf$string_categories) inputdf$string_categories=with(inputdf, ifelse(string_categories=="", "blank", string_categories)) stringCategoriesList <- strsplit(inputdf$string_categories, ' ') outDF <- data.frame(string_id=rep(inputdf$string_id, times=unlist(lapply(stringCategoriesList, length))), string_categories=unlist(stringCategoriesList)) return(outDF) }, error = function(e) { return( data.frame(string_id = c(0), string_categories = c("error")) ) }) }

关于r - Sparklyr 的 spark_apply 函数似乎在单个执行程序上运行并且在中等大型数据集上失败，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46396736/

34

4

0

文章推荐： r - 控制 ggplot 图例中的线型、颜色和标签

文章推荐： visual-studio - TypeScript 构建属性面板被禁用

文章推荐： java - 比较树节点

java - 似乎 Hibernate 超出了连接限制
谁能帮我解决这个问题？我有一个 Tomcat 和简单的 JSF 应用程序:https://github.com/gooamoko/jsfbilling/ .当我在 Tomcat 上运行应用程序时，它运
testing - 似乎 Groovy 在这两种情况下的行为不同？
我有两个这样的域类，第一个是 Manager : package com.mnm class Manager { String name; static hasMany = [ pro
c - 似乎 pthread_create 无法获得正确的参数
当我运行以下代码时，打印输出似乎不正确。 void thread_Calc(int *pos) { printf("recieved %d\n", *pos); sig = -1; man
c - 似乎 printf 使我的程序出现错误
这个问题在这里已经有了答案: How to access a local variable from a different function using pointers? (10 个答案) 关闭
c# - 似乎 ConcurrentBag 不是线程安全的
我编写了一个程序，其中列表构建器方法返回 IEnumerable of string，其中包括大量字符串(100 万个项目)，我将其存储在 List of string 中，然后它将所有项目附加到中
c - 似乎 pthread_create 正在覆盖以前的线程
我正在尝试编写一个 IRC 类型的聊天客户端，它具有可以连接到服务器的客户端。我试图让它在本地 atm 上工作(使用 FIFOS 而不是套接字)。我遇到了以下我似乎无法解决的问题: 接受新的客户端连
php - 似乎 Cron 工作在停止后仍在工作
我的一个 cronjobs 每天发送一封电子邮件 35 6 * * * cd $EZPUBLISHROOT && $PHP runcronjobs.php -q 2>&1 我停止使用 cron sud
wpf - 通过分页器保存和打印 XPSDocument(似乎)会导致内容光栅化
我使用 WPF 打印路径来处理在我们的应用程序中创建的大型图表。整个图表由视觉效果组成。所谓的“DesignerPaginator”对图表进行分页(非常简单)。从这一点来说，我做了以下三件事: -
android - 似乎 ApplicationInfo.FLAG_UPDATED_SYSTEM_APP 无法正常工作
我尝试在更新之前跟踪系统应用程序并使用: public static boolean isSystemApplication(Context ctx, IContent content) {
sql - 似乎 NOT IN 降低了 Postgresql 查询的性能
我在这里附上了一个查询分析结果，https://explain.depesz.com/s/x9BN 这是查询 EXPLAIN ANALYZE SELECT branche
tomcat - 似乎 CXF 不是每次都生成 wsdl
我正在做一个 CXF(spring) 项目 (HUB)。部署后，我可以看到肥皂和休息服务列表，我通过两个地址打开它。一种是使用本地主机，第二种是使用我电脑的 ip。所以我得到了这些输出。使用本地主机
swift - 似乎 Swfit.AnyHashable 不适合使用枚举 (as!, as?, as)
这是一个 AnyHashable 不支持枚举转换的简单案例。 enum testEnum: String { case Test } let myObject: AnyHashable = t
c# - 为什么列表比较失败，如果列表(似乎)相同
我的主要目标是比较存储在数据库和 XLSX 文件中的数据。为此，我按以下方式创建了两个列表: private class ProductList { public string produc
c++ - 更新 CMake(似乎)破坏了我的程序
我从 CMake 3.6 更新到任何最新版本 (3.12.0-rc2)，现在我的一个程序无法编译。奇怪的是，错误消息显示了标准库本身中的 undefined symbol 。这是错误消息: Unde
android - 似乎 windowAnimationStyle 被忽略了，如何为自定义对话框设置动画？
我希望将我的自定义对话框动画化为从特定点出现，但我无法为对话框设置动画。该对话框是一个基本的 RelativeLayout，设置为 extends Dialog 类中的布局。正如这里的一些答案所建
php - 即使具有(似乎)正确的文件权限，上传目标文件夹似乎也不可写
我已经在这个论坛上调查过很多类似的问题，但似乎没有一个能解决我的问题。我会在底部列出我在这个论坛上看到的一些问题页面，但让我先谈谈我对这个问题的看法。我正在使用 codeigniter v 2.x
docker-compose - systemd:似乎 ExecStop 脚本在启动命令运行后立即执行
我正在尝试在 RHEL 7 上启动一个 docker-compose 项目作为 systemd 服务。这是我的 systemd 脚本 (/etc/systemd/system/wp.service):
java - 似乎

这个问题已经有答案了: "Notice: Undefined variable", "Notice: Undefined index", "Warning: Undefined array key",

docker-compose - systemd:似乎 ExecStop 脚本在启动命令运行后立即执行
我正在尝试在 RHEL 7 上启动一个 docker-compose 项目作为 systemd 服务。这是我的 systemd 脚本 (/etc/systemd/system/wp.service):
java - 似乎 JPanel 背景未在 FocusListener 中读取
此问题出现在my last question here之后。我想将每个按钮聚焦和失去焦点背景设置为主菜单(ContentPane 即 JPanel)下方的背景颜色，因此按钮看起来像选项卡。它在不同的环

首页

博学

6Ren·AI

商城

r - Sparklyr 的 spark_apply 函数似乎在单个执行程序上运行并且在中等大型数据集上失败