java - 使用库(并行)在 R for Windows 上对 RWeka 进行并行化-6ren

java - 使用库(并行)在 R for Windows 上对 RWeka 进行并行化

转载作者：行者123 更新时间：2023-12-02 12:23:07

25

4

由于 mclapply() 不可用，我正在使用库(并行)来分发大型语料库的 NER。我正在使用this lmullen 提供的很好的教程作为起点。

首先，编写这样的代码片段:

annotate_entities <- function(doc, annotation_pipeline) {
    annotations <- annotate(doc, annotation_pipeline)
    AnnotatedPlainTextDocument(doc, annotations)
}

然后，管道:

itinerants_pipeline <- list(
  Maxent_Sent_Token_Annotator(),
  Maxent_Word_Token_Annotator(),
  Maxent_Entity_Annotator(kind = "person"),
  Maxent_Entity_Annotator(kind = "location")
)

语料库处理作品的串行版本，即

 corpus_serial_NER <- lapply(corpus[1:100]$content, annotate_entities, itinerants_pipeline )

但是，当我尝试并行化时，我遇到了麻烦:

library(parallel)

cl <- makePSOCKcluster(8)
setDefaultCluster(cl)

clusterExport(cl, c('annotate_entities', 
 'annotate', 
 'Maxent_Sent_Token_Annotator', 
 'AnnotatedPlainTextDocument', 
 'Maxent_Sent_Token_Annotator', 
  'Maxent_Word_Token_Annotator',
  'Maxent_Entity_Annotator'))

corpus_NER <- parLapply(cl, corpus[1:100]$content, function(k) {
  itinerants_pipeline <- list(
  Maxent_Sent_Token_Annotator(),
  Maxent_Word_Token_Annotator(),
  Maxent_Entity_Annotator(kind = "person"),
  Maxent_Entity_Annotator(kind = "location"))

  annotate_entities(k, itinerants_pipeline)
  }))

如果我尝试仅导出上面的函数而没有“内部”，引擎会报告它们丢失。四处搜索给我的印象是，这是因为当函数进入并行化时，对 Java 对象的引用被“切断”。但我怀疑对此的处理让我感到悲伤。

对于很小的语料库(10 个文档)，但超过 50 个，它会崩溃并显示以下消息:

Error in checkForRemoteErrors(val) : 
  7 nodes produced errors; first error: java.lang.OutOfMemoryError: GC overhead limit exceeded
In addition: 
Warning messages:
1: 
In .Internal(gc(verbose, reset)) :


 closing unused connection 14 (<-NO92W:11748)
2: 
In .Internal(gc(verbose, reset)) : (.................)

我了解到此错误消息来自 Java，并且与过度垃圾收集有关。但是，我不明白是什么导致在我的并行代码中发生这种情况(而不是在我串行运行它时)。

我想知道是什么原因导致了这种行为，但我也对解决方法感兴趣。我不清楚在 R/Windows 上进行并行 lapply 的最佳方法是什么，但使用了这个解决方案，因为我能够让它与其他函数(那些不是来自 Java 的)一起工作。

最佳答案

我发布一个答案是因为它为上述确切问题提供了一个可行的解决方案，感谢 Roman Luštrik's评论。加载包，然后删除函数中管道的创建解决了这个问题。这是工作代码:

cl <- makePSOCKcluster(7)
setDefaultCluster(cl)

clusterEvalQ(cl, library(NLP));
clusterEvalQ(cl, library(openNLP));
clusterEvalQ(cl, library(RWeka));
clusterEvalQ(cl, library(openNLPmodels.en));

clusterEvalQ(cl, itinerants_pipeline <- list(
    Maxent_Sent_Token_Annotator(),
    Maxent_Word_Token_Annotator(),
    Maxent_Entity_Annotator(kind = "person"),
    Maxent_Entity_Annotator(kind = "location")))

clusterExport(cl, c('annotate_entities'))

system.time(corpus_par_NER <- parLapply(cl,corpus[1:5000]$content, function(k) {
    annotate_entities(k, itinerants_pipeline)
}))

stopCluster(cl)

至关重要的是，管道以这种方式导出。通过 clusterExport 执行此操作(与“annotate_entities”在同一列表中不起作用)。

关于java - 使用库(并行)在 R for Windows 上对 RWeka 进行并行化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45629536/

25

4

0

文章推荐： java - 在ask回调中转发Akka actor内部

文章推荐： java - 排序错误 : Hashmap>

文章推荐： java - 在 android Activity 中调用静态处理程序上的 post

文章推荐： java - 如何使用 Wordpress 运行 Java 页面？

javascript - 为什么我能够在控制台 window.window.window.window 中执行此操作并返回 window ？
为什么我可以在控制台 window.window.window.window 中执行此操作并无限追加 .window 并返回 DOM 窗口？最佳答案因为 window 对象有一个指向它自身的 wi
windows - Windows 管理员和 Windows 系统用户有什么区别
Windows管理员用户和系统用户之间有什么权限区别吗？有些时候，我必须将 cmd 窗口提升到系统权限才能删除一些文件。这可能是因为系统用户锁定了文件，或者系统用户可能具有更高的访问权限，我希望找出
windows - Windows 桌面应用程序和 Windows 应用商店应用程序有什么区别
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
windows - Windows 服务和 Windows 进程之间有什么区别？
Windows 服务和 Windows 进程之间的区别是什么？最佳答案服务是真正的 Windows 进程，没有区别。服务的唯一特殊之处在于它由操作系统启动并在单独的 session 中运行。一个独
windows - 如何找出哪个用户以编程方式将打印命令发送到 windows/windows 服务器？
我有一个 Windows 网络 (peer-2-peer) 以及 Active Directory，我需要记录向服务器发送任何类型打印的用户的名称。我想编写一个程序来记录他们的用户名和/或他们各自的
windows - Windows 服务可以安装另一个 Windows 服务吗？
当我让一个 Windows 服务尝试安装另一个 Windows 服务时遇到问题。具体来说，我有一个 TeamCity 代理在 Windows 2008 AWS 实例上为我运行测试。这些测试是用 Ja
windows - Windows 服务可以接收 Windows 消息吗？
我创建了一个应用程序来接收广播的 Windows 消息，效果很好。当我把它变成一个服务、安装它并启动服务时，该服务没有收到消息。最佳答案服务可能必须被授予访问桌面的权限。从服务属性、“登录”选项卡
windows - Windows 启动时启动我的应用程序(所有版本的 Windows)？
我正在使用 Delphi 2010 编写应用程序。我希望在 Windows 启动时启动我的应用程序。我需要它在最新版本的 Windows XP、7.0 和最新的服务器中工作。将其存储在以下关键工作下
windows-7 - Windows XP、Windows Vista 和 Windows 7 上的不同文件打开对话框
我想开发一个适用于所有三个版本的 Windows XP、Vista 和 7 的应用程序。该应用程序允许人们选择要打开的文件，并允许他们在某些操作后保存文件。三个版本的 Windows 中的每一个都有不
windows -\Windows\versus\Windows\System32 - 文件位置约定
对于\Windows\中的文件类型与\Windows\System32 中的文件类型是否有标准约定？我正在开发一个 SDK，其中包含各种 DLL、帮助程序 exe 和 Windows 服务 exe。
windows - 如何将 Windows 登录过程延迟到 Windows 服务的偶数
要求是，必须在 WINDOWS7 机器上配置自动登录，但是这个自动登录应该等待(即延迟)直到另一个 Windows 服务发出继续自动登录的信号。我使用了自定义凭据提供程序，它在其中等待另一个 Win
windows - Windows/Windows CE的串行I/O重叠/不重叠
很抱歉，这不是一个大问题，而是更多的帮助人们解决这些特定问题的方法。我正在解决的问题要求使用串行I/O，但主要在Windows CE 6.0下运行。但是，最近有人问我是否也可以在Windows下运行该
windows - 为什么 Windows 32 位称为 Windows x86 而不是 Windows x32？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
windows - 用于检查 Windows 服务是否正在运行以及是否不启动该服务的脚本。 Windows 2000
不幸的是 SC 命令在 W2000 上还不可用，所以我不能使用它。我正在尝试检查服务是否在 W2000 服务器上运行，如果它没有运行，脚本应该能够启动该服务。如何在 Windows 2000 上执
windows - 在登录到 Windows 之前启动 Windows 窗体应用程序
如何在登录到 Windows 之前启动 Windows 窗体应用程序？是否可以在登录到 Windows 之前启动 Windows 窗体应用程序？如果不是，我是否有机会在登录前启动 Windows 服务
windows - 使用 Windows 任务计划程序调用 Windows 服务时出现问题
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
windows - 确定操作系统类型的环境变量(Windows XP、Windows 7)
我想在 XML 文件中区分 Windows XP 和 Windows 7。我想我会在 XML 中为它使用一个环境变量。但是我找不到在 Windows 中定义的任何系统环境变量来提供此信息。我看到了
windows - 如何检查是否安装了 Windows 通讯簿或 Windows 联系人
有谁知道我可以在注册表中的哪个位置检查机器上是否安装了这些应用程序: Windows 通讯录 Windows 联系人最佳答案来自 Microsoft:我知道它说的是 win 95，但 reg 是一
windows - 通过另一台 Windows 服务器上的批处理文件在远程 Windows 服务器上执行批处理文件
我正在尝试从我的 Windows 服务器调用放置在远程 Windows 服务器上的批处理文件。我在远程服务器上安装了 freeSSHd。我尝试使用 putty/plink 但没有结果。我使用的命令语
windows - 从 Windows 服务更改显示分辨率 (Windows 7)
( 大家好。我是 Windows 编程的新手，所以如果已经有人问过我，我提前道歉，我只是不知道要搜索什么，但这个问题一直让我发疯，我知道有人可能真的很容易回答这个问题。) 我的公司有一个在 Windo

首页

博学

6Ren·AI

商城

java - 使用库(并行)在 R for Windows 上对 RWeka 进行并行化