gpt4 book ai didi

r - 亚马逊 EMR : Using R code in Amazon EMR

转载 作者:行者123 更新时间:2023-12-01 23:11:42 25 4
gpt4 key购买 nike

我有一个非常初学者的问题。我刚刚阅读了一些有关 Amazon EMR 的文档。在我注册之前,我只是想询问一下如何在其中使用 R。

我有一个 R 模块,它调用其他几个模块,然后,在它完成运行之前,将几个变量保存为 .txt 文件。

我的基本问题是,我可以在 Amazon 的 EMR 中执行此操作吗?我能够访问 .txt 输出文件吗?最后,我的 R 脚本从 Excel 电子表格中读取一些数据。如果我将 Excel 文件上传到系统中,还可以从 EMR 执行此操作吗?

谢谢

迈克

最佳答案

@Mike,回答以下 3 个问题

  • 在 EMR 上运行 R: 是的,可以。在 EMR 实例上安装 R 后,您可以在 EMR 上运行 R 程序。我假设如果您计划使用多实例集群,您会编写 MapReduce moules。如果您的程序只是一个“普通”R 程序,那么您可能只需使用一个相当大的实例。我宁愿使用带有 R AMI 的 EC2 实例(寻找 Louis Aslett)。

  • 移动输出文件:是的你可以。可以将程序输出从 EMR 传输到您选择的 S3 存储桶。您必须添加一个调用 S3DistCp 命令的步骤来移动文件。我的项目的一个例子 -

    --jar /home/hadoop/lib/emr-s3distcp-1.0.jar --args '--src,hdfs:///contents,--dest,s3://<bucket-name>/'
  • 阅读电子表格:据我所知,如果您能够在本地安装的 R 上执行此操作,那么您也应该能够在 EMR 上执行此操作。您必须确保在引导过程中安装了必要的软件包/库。

我能够在 EMR 实例上安装squeezy-cran 和 rmr2 及其所有依赖项(RCpp、reshap2、digest、RJSONIO、功能等)。我仍然无法调用 R 程序作为一个步骤。我必须使用 SSH session 并在 shell 提示符下运行 R CMD 命令。在 Windows 上,putty.exe 对我有用。

关于r - 亚马逊 EMR : Using R code in Amazon EMR,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21045414/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com