gpt4 book ai didi

python - 即使启动它的 lambda 函数超时,如何使复制命令继续在 Redshift 中运行?

转载 作者:行者123 更新时间:2023-12-04 00:52:54 27 4
gpt4 key购买 nike

我正在尝试运行一个复制命令,该命令将大约 100 GB 的数据从 S3 加载到 redshift。我每天都在使用 lambda 函数来启动这个复制命令。这是我当前的代码

from datetime import datetime, timedelta
import dateutil.tz
import psycopg2
from config import *

def lambda_handler(event, context):
con = psycopg2.connect(dbname=dbname, user=user, password=password, host=host, port=port)
cur = con.cursor()

try:
query = """BEGIN TRANSACTION;

COPY """ + table_name + """ FROM '""" + intermediate_path + """' iam_role '""" + iam_role + """' FORMAT AS parquet;

END TRANSACTION;"""

print(query)
cur.execute(query)

except Exception as e:
subject = "Error emr copy: {}".format(str(datetime.now().date()))
body = "Exception occured " + str(e)
print(body)

con.close()
此函数运行良好,但唯一的问题是,在 lambda 函数超时 15 分钟后,复制命令也会在 reshift 中停止执行。因此,我无法完成从 s3 到 redshift 的副本加载。
我还尝试在 begin 语句之后和复制命令之前包含下面的 statement_timeout 语句。它没有帮助。
SET statement_timeout to 18000000;
有人可以建议我如何解决这个问题吗?

最佳答案

AWS documentation没有明确说明超时发生时会发生什么。但我认为可以肯定地说它过渡到“关闭”阶段,此时运行时容器被环境强行终止。
这意味着数据库连接使用的套接字连接将被关闭,并且正在监听该套接字的 Redshift 进程将收到一个文件结束 - 客户端断开连接。在这种情况下,任何数据库的正常行为是终止所有未完成的查询并回滚它们的事务。
我给出这种描述的原因是让您知道您不能将查询的生命周期延长到启动该查询的 Lambda 的生命周期之外。如果您想坚持使用数据库连接库,则需要使用不会超时的服务:AWS Batch 或 ECS 是两个选项。
但是,还有一个更好的选择:Redshift Data API , 即 supported by Boto3 .
此 API 以异步方式运行:您向 Redshift 提交查询,并获得可用于检查查询操作的 token 。您还可以指示 Redshift 在查询完成/失败时向 AWS Eventbridge 发送消息(以便您可以创建另一个 Lambda 以采取适当的操作)。

关于python - 即使启动它的 lambda 函数超时,如何使复制命令继续在 Redshift 中运行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65038660/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com