gpt4 book ai didi

python - 通过 AWS Data Pipelines 运行 python 脚本

转载 作者:太空宇宙 更新时间:2023-11-04 00:37:19 25 4
gpt4 key购买 nike

我使用 AWS Data Pipelines 每晚运行 SQL 查询,这些查询填充表以获取汇总统计信息。 UI 有点古怪,但最终我弄好了它并开始工作。

现在我想用 python 脚本做一些类似的事情。我有一个每天早上在笔记本电脑上运行的文件 (forecast_rev.py),但这当然意味着必须每天打开我的笔记本电脑并启动它。当然,我可以安排一个 Pipeline 来做同样的事情,这样就可以去度假而不在乎了。

我这辈子都找不到关于此的教程、AWS 文档或 StackOverflow!我什至不知道如何开始。是否有人愿意分享他们愿意分享步骤的简单管道?

最佳答案

我遇到过类似的情况,这就是我如何克服的。
我将描述我是如何使用 Ec2Resource 做到这一点的。如果您正在 EMRCluster 中寻找解决方案,请引用@franklinsijo answer .

步骤
1。将您的 Python 脚本存储在 s3 中。
2。创建一个 shell 脚本(hello.sh)(如下所示)并将其存储到 s3
3。创建 Ec2Resource 节点和 ShellCommandActivity 节点并提供这些信息。

  • 在“Script Uri”中提供 shell 脚本 S3 url,并在 ShellCommandActivity 中将“stage”设置为 true。它应该在您的 DefaultResource 上运行

这是从 s3 下载您的 python 程序并存储在本地的 shell 脚本 (hello.sh),安装 python 和所需的第 3 方库,最后执行您的 python 文件。

你好.sh

echo 'Download python file to local temp'
aws s3 cp s3://path/to/python_file/hello_world.py /tmp/hello.py
# Install python(on CentOs )
sudo yum -y install python-pip
pip install <dependencies>
python /tmp/hello.py

我在尝试 bang line 时遇到了困难所以不要在这里包括它们。
如果 aws cp 命令不起作用(awscli 较旧),这里是针对这种情况的快速解决方案。

  1. 按照上面的步骤 1-3,创建一个 s3DataNode
    I. 在 S3DataNode 的“文件路径”中提供您的 python s3 url。
    二。提供 DataNode 作为 ShellCommandActivity
    的“输入” 三、在 ShellCommandActivity
  2. 的“命令”字段中写入以下命令

命令

echo 'Install Python2'
sudo yum -y install python-pip
pip install <dependencies>
python ${INPUT1_STAGING_DIR}/hello_world.py

关于python - 通过 AWS Data Pipelines 运行 python 脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43456182/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com