r - 函数内的并行 *ply-6ren

r - 函数内的并行 *ply

转载作者：行者123 更新时间：2023-12-04 21:14:28

28

4

我想使用 plyr 的并行功能函数内封装。

我原以为导出在函数体内创建的对象的正确方法(在本例中，对象是 df_2 )如下

# rm(list=ls())
library(plyr)
library(doParallel)

workers=makeCluster(2)
registerDoParallel(workers,core=2)

plyr_test=function() {
  df_1=data.frame(type=c("a","b"),x=1:2)
  df_2=data.frame(type=c("a","b"),x=3:4)

  #export df_2 via .paropts  
  ddply(df_1,"type",.parallel=TRUE,.paropts=list(.export="df_2"),.fun=function(y) {
    merge(y,df_2,all=FALSE,by="type")
  })
}
plyr_test()
stopCluster(workers)

但是，这会引发错误

Error in e$fun(obj, substitute(ex), parent.frame(), e$data) : 
  unable to find variable "df_2"

所以我做了一些研究，发现如果我导出 df_2 是有效的。手动

workers=makeCluster(2)
registerDoParallel(workers,core=2)

plyr_test_2=function() {
  df_1=data.frame(type=c("a","b"),x=1:2)
  df_2=data.frame(type=c("a","b"),x=3:4)

  #manually export df_2
  clusterExport(cl=workers,varlist=list("df_2"),envir=environment())

  ddply(df_1,"type",.parallel=TRUE,.fun=function(y) {
    merge(y,df_2,all=FALSE,by="type")
  })
}
plyr_test_2()
stopCluster(workers)

它给出了正确的结果

  type x.x x.y
1    a   1   3
2    b   2   4

但我也发现以下代码有效

workers=makeCluster(2)
registerDoParallel(workers,core=2)

plyr_test_3=function() {
  df_1=data.frame(type=c("a","b"),x=1:2)
  df_2=data.frame(type=c("a","b"),x=3:4)

  #no export at all!
  ddply(df_1,"type",.parallel=TRUE,.fun=function(y) {
    merge(y,df_2,all=FALSE,by="type")
  })
}
plyr_test_3()
stopCluster(workers)

plyr_test_3()也给出了正确的结果，我不明白为什么。我本以为我必须导出 df_2 ...

我的问题是:处理并行的正确方法是什么 *ply在函数内？显然， plyr_test()是不正确的。我莫名其妙地感觉 plyr_test_2() 中的手动导出没用。但我也认为 plyr_test_3()是一种糟糕的编码风格。有人可以详细说明一下吗？谢谢你们!

最佳答案

它看起来像一个范围问题。

这是我的“测试套件”，它允许我 .export 不同的变量或避免在函数内创建 df_2。我在函数之外添加和删除了一个虚拟的 df_2 和 df_3 并进行比较。

library(plyr)
library(doParallel)

workers=makeCluster(2)
registerDoParallel(workers,core=2)

plyr_test=function(exportvar,makedf_2) {
  df_1=data.frame(type=c("a","b"),x=1:2)
  if(makedf_2){
    df_2=data.frame(type=c("a","b"),x=3:4)
  }
  print(ls())

  ddply(df_1,"type",.parallel=TRUE,.paropts=list(.export=exportvar,.verbose = TRUE),.fun=function(y) {
    z <- merge(y,df_2,all=FALSE,by="type")
  })
}
ls()
rm(df_2,df_3)
plyr_test("df_2",T)
plyr_test("df_2",F)
plyr_test("df_3",T)
plyr_test("df_3",F)
plyr_test(NULL,T) #ok
plyr_test(NULL,F)
df_2='hi'
ls()
plyr_test("df_2",T) #ok
plyr_test("df_2",F)
plyr_test("df_3",T)
plyr_test("df_3",F)
plyr_test(NULL,T) #ok
plyr_test(NULL,F)
df_3 = 'hi'
ls()
plyr_test("df_2",T) #ok
plyr_test("df_2",F)
plyr_test("df_3",T) #ok
plyr_test("df_3",F)
plyr_test(NULL,T) #ok
plyr_test(NULL,F)
rm(df_2)
ls()
plyr_test("df_2",T)
plyr_test("df_2",F)
plyr_test("df_3",T) #ok
plyr_test("df_3",F)
plyr_test(NULL,T) #ok
plyr_test(NULL,F)

我不知道为什么，但是 .export 在函数外部的全局环境中查找 df_2，(我在代码中看到 parent.env()，这可能比全局环境“更正确”)而计算需要变量与 ddply 处于相同的环境中并自动导出它。

在函数外部使用 df_2 的虚拟变量允许 .export 工作，而计算使用内部的 df_2。

当 .export 在函数外找不到变量时，它输出:

Error in e$fun(obj, substitute(ex), parent.frame(), e$data) : 
  unable to find variable "df_2"

函数外部有一个 df_2 虚拟变量但内部没有， .export 很好，但 ddply 输出:

Error in do.ply(i) : task 1 failed - "object 'df_2' not found"

有可能因为这是一个小例子或者可能不是可并行化的，它实际上运行在一个核心上并且避免了导出任何东西的需要。一个更大的例子可能会在没有 .export 的情况下失败，但其他人可以尝试。

关于r - 函数内的并行 *ply，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27492898/

28

4

0

文章推荐： ssh - Capifony 部署不能 "git clone"

文章推荐： sql - 根据长度在oracle sql中拆分字符串

文章推荐： angularjs - Angular ui-router 似乎在加载时自动重写 url

sql - PLI 关键字的用途是什么？
在 ms sql 2008 中编写一些存储过程时，当我输入一些变量名称时，我注意到 PLI 被突出显示为关键字。有谁知道 PLI 的用途是什么？最佳答案您可以在 MSDN 上查看此类信息: 请参
r - 函数内的并行 *ply
我想使用 plyr 的并行功能函数内封装。我原以为导出在函数体内创建的对象的正确方法(在本例中，对象是 df_2 )如下 # rm(list=ls()) library(plyr) library(
MeshLab .ply 文件导入错误
我是 3D 重建的新手，我有点云。我把它写在 .ply 文件上。但是当我按下它文件时 Meshlab 为我提供了一个 Error 。请找到以下内容，meshlab 可以允许打开该文件 Unespec
python - PLY - 添加第二个相似行时出现解析错误
我正在使用一个简单的 .txt 文件测试层，其中包含:value = 0.4。解析器按预期工作，但是当我向该文件添加第二行时，出现错误: 错误:解析“LexToken(VALUE_KEY,'value
Python PLY 解析器语法错误
全部，我正在用 python PLY 编写一个非常简单的解析器。它大部分完成了这项工作，但对于许多输入行，我从yacc收到语法错误。这是词法分析器和解析器代码，稍作修改以方便测试: tokens =
python - ply 中的特殊情况词法分析器规则
有没有办法对层词法分析器规则进行特殊处理？ t_IDENT = r'[a-zA-Z_][0-9a-zA-Z_]*' t_OPERATOR = r'[<>=/*+-]+' t_DEFINE
python - PLY - 隐藏输出文件
我正在 python 中使用 PLY 构建解析器，当我运行解析器时，它会创建 3 个文件:parsetab.py、lextam.py 和 parse.out 如何才能不创建这些文件？有一个参数可以做到
Python PLY 解析器
我试图四处寻找这个问题的答案，但似乎找不到。我正在尝试使用 PLY 在 Python 中编写一个解析器作为一种编造的语言。我的 BNF 的简化版本如下所示: statement-list -> sta
Python PLY 零次或多次出现的解析项
我正在使用 Python 和 PLY 来解析类似 LISP 的 S 表达式，并且在解析函数调用时可以有零个或多个参数。我怎样才能将它放入 yacc 代码中。到目前为止，这是我的功能: def p_EX
python - ply 在语法上连接字符串
所以我在 Ply 上编写了一个语法来识别基本的 C 语句，例如变量声明或 while 语句。现在，我想要做的是能够连接所有标记，然后打印它或让它在树上传播，如下所示: def p_whileStm
Python PLY 赋值操作失败
我正在尝试创建一个将我的脚本作为输入的解释器。我在编写正则表达式时遇到了一些问题。定义的标记之一是将所有字符串视为标记。 import ply.lex as lex import ply.yacc a
python - PLY 可以处理输入而不将其全部加载到内存中吗？
我想使用Python的PLY分析大量文本，其大小可能达到 1GB。是否可以让 PLY 读取文本并将其解析为流，这样我就不必将整个内容加载到内存中？我想逐行检查文本，并让 PLY 对其进行分析。那可能
python - PLY/YACC解析PDF上的冲突
我正在尝试使用PLY lex / yacc解析PDF，而我却遇到了有关yacc解析规则的问题，该规则控制NUMBER标记，数组和indirect_references。相关资料来源： def p_v
Python PLY 多条规则
简而言之，我们如何区分使用了哪个规则 - 例子:- ''' p : a b | c | d '''所以假设我们需要为不同的规则编写不同的代码。那么有什么优雅的方法可以做到这一点。手册中给出的一种方法是
python - PLY:快速解析长长的项目列表？
我在 PLY 中使用一个相当简单的解析器，我的规则之一采用以下形式: def p_things(p): ''' things : thing things things : t
3d - 将模型从 .PLY 文件加载到半边数据结构中
我正在尝试构建一个 .PLY 解析器，以将存储为 .ply 文件的 3d 模型加载到半边数据结构网格中。抱歉问了这么大的问题，我很冗长，我想确保我列出了所有的细节。因此，我将立即重申我的最终目标，以
object - 手动读取 .ply 文件
我正在进入 .ply 文件的世界。我已经阅读了一些关于它们的内容，但是关于它们的格式的文档似乎与我的文件中的内容不太一致。我一直在尝试理解这篇文章 here，但我运气不佳。这是我的 .ply 文件的
graphics - 带有纹理坐标的 PLY 文件规范
出于某种目的，我需要读取带有嵌入纹理的 PLY 文件(斯坦福三角格式)。我看到了 PLY 文件的几个规范，但找不到指定纹理映射语法的单个来源。似乎有很多库可以读取 PLY 文件，但大多数库似乎不支持纹
parsing - Ply Lex 解析问题
我使用 ply 作为我的 lex 解析器。我的规范如下: t_WHILE = r'while' t_THEN = r'then' t_ID = r'[a-zA-Z_][a-zA-Z0-9_]*'
Python 解析器 ply 不处理空格
我使用 ply 解析数据.我尝试使用空格作为词素的一部分。这里有一个简化的例子: from ply.lex import lex from ply.yacc import yacc tokens =

首页

博学

6Ren·AI

商城

r - 函数内的并行 *ply