gpt4 book ai didi

r - Amazon Web Services - 如何每天运行一个脚本

转载 作者:行者123 更新时间:2023-12-02 07:22:28 26 4
gpt4 key购买 nike

我有一个每天运行的 R 脚本,它从几个不同的网站抓取数据,然后将抓取的数据写入几个不同的 CSV 文件。每天,在特定时间(每天更改),我打开 RStudio,打开文件,然后运行脚本。我每次都检查它是否正确运行,然后将输出保存到 CSV 文件中。每天都必须这样做通常很痛苦(每天大约需要 10-15 分钟)。如果我能以某种方式让这个脚本在预定义的特定时间自动运行,我会很高兴,我的一个 friend 说 AWS 能够做到这一点?

这是真的吗?如果是这样,AWS 的具体功能/方面是什么能够做到这一点,这样我就可以深入研究它?

谢谢!

最佳答案

考虑到这一点,我想到了两个选项:

  • 托管一个带有 R 的 EC2 实例,并配置一个 CRON 作业以定期执行您的 R 脚本。
    一种简单的入门方法:使用 this AMI.
    为了执行脚本,R 提供了一个 CLI rscript。参见例如here关于如何设置
  • Go Serverless:AWS Lambda 是一种托管微服务。目前 R 不受本地支持,但在官方 AWS 博客上支持 here他们提供了有关如何运行 R 的分步指南。基本上,您使用 rpy2 从 Python 执行 R -包裹。
    完成此设置后,通过 CloudWatch Events (~hosted cron-job) 安排功能。 Here您可以找到有关如何执行此操作的分步指南。
    还有一件事:您说您的函数输出 CSV 文件:要正确保存它们,您需要将它们放入 AWS-S3 等文件存储中。您可以通过 aws.s3 在我的 R 中执行此操作-包裹。另一种选择是使用 AWS SDK for python它预装在 lambda 函数中。你可以例如将 csv 文件写入 /tmp/-dir 并在 R 脚本完成后通过 boto3's S3 upload_file function 将文件移动到 S3 .

恕我直言,第一个选项更容易设置,但第二个选项更强大。

关于r - Amazon Web Services - 如何每天运行一个脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41947360/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com