r - 如何在 EMR 集群上使用 Spark-Submit 或 SparkR 运行 SparkR 脚本？-6ren

r - 如何在 EMR 集群上使用 Spark-Submit 或 SparkR 运行 SparkR 脚本？

转载作者：行者123 更新时间：2023-12-02 01:44:16

24

4

我编写了一个 SparkR 代码，想知道是否可以在 EMR 集群上使用 Spark-submit 或 SparkR 提交它。

我尝试过多种方法，例如:sparkR mySparkRScript.r 或sparkR --no-save mySparkScript.r 等..但每次我都会遇到以下错误:

Error in sparkR.sparkContext(master, appName, sparkHome, sparkConfigMap,  : 
JVM is not ready after 10 seconds

示例代码:

#Set the path for the R libraries you would like to use.
#You may need to modify this if you have custom R libraries.
.libPaths(c(.libPaths(), '/usr/lib/spark/R/lib'))

#Set the SPARK_HOME environment variable to the location on EMR
Sys.setenv(SPARK_HOME = '/usr/lib/spark')

#Load the SparkR library into R
library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))

#Initiate a Spark context and identify where the master node is located.
#local is used here because the RStudio server
#was installed on the master node

sc <- sparkR.session(master = "local[*]", sparkEnvir = list(spark.driver.memory="2g"))

sqlContext <- sparkRSQL.init(sc)

注意:我可以通过直接粘贴或使用source("mySparkRScript.R")在sparkr-shell中运行我的代码.

引用:

最佳答案

我能够通过 Rscript 运行它。您需要做一些事情，这可能会有点过程密集。如果您愿意尝试一下，我建议:

了解如何进行自动化 SparkR 或 SparklyR 构建。通过:https://github.com/UrbanInstitute/spark-social-science
首先使用 AWS CLI 创建一个集群，其中包含您将通过以下步骤 1 创建的 EMR 模板和引导脚本。(确保将 EMR 模板和 rstudio_sparkr_emrlyr_blah_blah.sh 脚本放入 S3 存储桶中)
将您的 R 代码放入一个文件中，并将其放入另一个 S3 存储桶中...您提供的示例代码可以正常工作，但我建议实际执行一些操作，例如从 S3 读取数据，添加值，然后将其写回(只是为了在进入您可能坐拥的“繁重”代码之前确认它是否有效)
创建另一个 .sh 文件，将 R 文件从您拥有的 S3 存储桶复制到集群，然后通过 Rscript 执行它。将此 shell 脚本放入与 R 代码文件相同的 S3 存储桶中(为了简单起见)。此 shell 文件的内容示例可能如下所示:
```
#!/bin/bash
aws s3 cp s3://path/to/the/R/file/from/step3.R theNameOfTheFileToRun.R
Rscript theNameOfTheFileToRun.R
```
在 AWS CLI 中，创建集群时，将 --step 插入到集群创建调用中，使用 Amazon 提供的 CUSTOM JAR RUNNER 运行 shell 脚本，复制并执行 R 代码
确保在 R 代码结束时停止 Spark session 。

AWS CLI 命令的示例可能如下所示(在示例中，我使用 Amazon 上的 us-east-1 区域，并在集群中的每个工作线程上放置 100GB 磁盘...只需将您的区域在您看到“us-east-1”的任何地方并选择您想要的任何大小的磁盘)

aws emr create-cluster --name "MY COOL SPARKR OR SPARKLYR CLUSTER WITH AN RSCRIPT TO RUN SOME R CODE" --release-label emr-5.8.0 --applications Name=Spark Name=Ganglia Name=Hadoop --instance-groups InstanceGroupType=MASTER,InstanceCount=1,InstanceType=m4.xlarge 'InstanceGroupType=CORE,InstanceCount=2,InstanceType=m4.2xlarge,EbsConfiguration={EbsOptimized=true,EbsBlockDeviceConfigs=[{VolumeSpecification={VolumeType=gp2,SizeInGB=100}},{VolumeSpecification={VolumeType=io1,SizeInGB=100,Iops=100},VolumesPerInstance=1}]}' --log-uri s3://path/to/EMR/sparkr_logs --bootstrap-action Path=s3://path/to/EMR/sparkr_bootstrap/rstudio_sparkr_emr5lyr-proc.sh,Args=['--user','cool_dude','--user-pw','top_secret','--shiny','true','--sparkr','true','sparklyr','true'] --ec2-attributes KeyName=mykeyfilename,InstanceProfile=EMR_EC2_DefaultRole,AdditionalMasterSecurityGroups="sg-abc123",SubnetId="subnet-abc123" --service-role EMR_DefaultRole --scale-down-behavior TERMINATE_AT_TASK_COMPLETION --auto-terminate --region us-east-1 --steps Type=CUSTOM_JAR,Name=CustomJAR,ActionOnFailure=CONTINUE,Jar=s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://path/to/the/shell/file/from/step4.sh"]

祝你好运!干杯，内特

关于r - 如何在 EMR 集群上使用 Spark-Submit 或 SparkR 运行 SparkR 脚本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47198617/

24

4

0

文章推荐： ios - 我是否需要服务器端支持自动续订订阅的 iOS 宽限期？

文章推荐： java - 扩展 HttpEntityEnshingRequestBase 时出错

文章推荐： apollo - Apollo 中查询和变异之间的区别？

javascript - querySelector 似乎正在从输入 id "#submit"和另一个输入类型 ="submit"识别 ="submit"
我创建了一个函数来在两个元素的 style.display 之间切换为“none”或“block”。我在这里遇到的问题是“发送”按钮似乎与“切换”按钮具有相同的行为。这不是我指定它要做的事情。我想知道
jquery - 为什么表单操作页中的结构键值显示两次，如 "Submit,Submit"？
当我使用 validate.js 添加表单验证时，其验证正常并显示验证消息。但输入 type="submit"值在操作页面结构中显示两次。为了说明，我有两个 .cfm 文件，index.cfm 具有
java - sj :submit and s:submit on the same form
我有一个 s:form，里面有 sj:submit 和 s:submit，sj:submit 工作正常，但 s:submit 按钮不起作用。当我点击 s:submit 按钮时没有任何反应。我尝试在表
jquery - 为什么不通过表单元素上的 Submit 方法提交表单调用 $.submit 处理程序？
参见http://jsfiddle.net/8KNc7/5/有关我正在讨论的内容的工作示例(目前在 Firefox 15 中进行测试，尚未尝试其他版本)。我有一个带有 submit 输入和 butt
javascript - form.submit() 和输入类型为 "submit"之间的区别
我有一个包含表单的 HTML 页面。我想做一些字段 "required" 。问题是我没有使用在我的表单中，我使用 Javascript 函数来提交表单，因为我需要将 Javascript 变量发送到
php - 使用什么代替 if(isset($_POST ['submit' ])) for this.form.submit()？
如果用户提交表单，我想运行特定的 PHP block 。如果我使用带有 name="submit"的提交按钮并且: 我对 javascript 一无所知，我希望代码在用户更改下拉菜单时运行。如果我将
javascript - 区分 HTML 表单 SUBMIT 和基于控制台的表单 SUBMIT
我有一个网站 www.abc.com，其中有一个页面 xyz.php。 xyz.php 采用表单提交事件读取数据并保存在数据库中。 www.abc.com 有一个针对 xyz.php 执行操作的表单。
javascript - 使用javascript自动填充 "form"和 "submit"而不按 "submit"
这个问题在这里已经有了答案: JavaScript post request like a form submit (32 个答案) 关闭 9 年前。我查看了不同的线程，但找不到合适的解决方案。
javascript - form.on ('submit' ) 不会在 form.submit() 之前触发
我有一个表单提交触发器和一个确认引导框，它显示在单击表单提交按钮上。在 bootbox 中确认如果用户同意我提交表单。我的问题是 onsubmit 在用户说是之前触发，并且当我在 bootbox 中调
javascript - 为什么 form.submit() 不会触发 "submit"事件？
我正在使用 JavaScript .submit() 函数提交我的表单。 form.submit(); 但是当我使用 addEventListener 来捕获我的提交事件时，它不起作用。 form.a
javascript - 输入类型="submit"，onclick处理程序调用this.form.submit()，并且不返回任何值
编辑:在考虑回答问题之前，请仔细阅读问题的所有内容。我既不是在生产代码中使用内联事件处理程序的可取性，也不是在实现我所引用的文章所 promise 的结果的最佳方法。这是关于Javascript语义和
jQuery:表单未使用 $ ("#id").submit() 提交，但会使用 'submit' 按钮提交？
这是我的形式，对我来说看起来不错。在这种形式中，我放置了这个按钮: 这是它调用的函数: function confirmSubmit() { // get the number of st
css - 哪个更快？输入[类型 ="submit"] 或 [类型 ="submit"]
以下哪个 CSS 选择器更快？ input[type="submit"] { /* styles */ } 或 [type="submit"] { /* styles */ } 只是好
javascript - html 表单按钮 vs 输入类型 ="submit"vs this.submit()？
在表单上添加提交按钮的符合标准的正确语义方式是什么？我不需要按钮中的图像或背景，只需要简单的文本，也许是带弯 Angular 的渐变背景(使用 CSS3)。这些是我所知道的方法: click her
javascript - 为什么 ng-submit 没有触发 $scope.submit 函数？
我的 App.js 包含以下代码: var app = angular.module('githubApp', []); 我有 githubAppController 和以下代码: app.contr
javascript - jQuery 方法 : difference between . submit() 与 .trigger ('submit' )
jQuery 允许通过以下任一方式以编程方式触发表单提交: $('.js-form-class-hook').submit(); $('.js-form-class-hook').trigger('s
javascript - HTML Javascript，.click()->.submit() 和 .submit() 返回不同的结果
我有一个表单，其中一个按钮使用 onClick 事件提交。 " 此外，我有一个输入，当输入处于焦点状态时按下回车键时会触发 couponButton。虽然它们都触发相同的事件 (.submit()
javascript - 按钮与输入类型 ="submit"与 onclick ="document.formname.submit()"
目前只是尝试实现这些按钮:http://web.archive.org/web/20110721191046/http://particletree.com/features/rediscoverin
ios - 在TestFlight中点击 "Submit for Review"后，status还是 "Ready to Submit"
我正在提交我的第一个构建以供 TestFlight beta 审查，在创建一个组后，添加 4 名团队成员添加我的构建，取消单击该框以表示我需要登录信息来测试该应用程序，我单击“提交”审查。” iTun
javascript - 是否可以在任何现有的 onsubmit/submit 之前绑定(bind) submit() 函数？
我有一个带有 onsubmit 属性的表单。我需要绑定(bind)一个新的提交事件，并且我需要在任何现有提交函数之前执行此事件。下面的代码演示了这个问题。 Test

首页

博学

6Ren·AI

商城

r - 如何在 EMR 集群上使用 Spark-Submit 或 SparkR 运行 SparkR 脚本？