gpt4 book ai didi

amazon-s3 - 使用 AWS Lambda 读取/写入 Parquet 文件?

转载 作者:行者123 更新时间:2023-12-01 13:32:11 26 4
gpt4 key购买 nike

嗨,我需要一个 lambda 函数来读取和写入 Parquet 文件并将它们保存到 S3。我尝试使用需要使用 pyarrow 的库制作部署包,但出现 cffi 库的初始化错误:

module initialization error: [Errno 2] No such file or directory: '/var/task/__pycache__/_cffi__x762f05ffx6bf5342b.c'

我什至可以使用 AWS Lambda 制作 Parquet 文件吗?有没有人遇到过类似的问题?

我想做这样的事情:
import pyarrow as pa
import pyarrow.parquet as pq
import pandas as pd

df = pd.DataFrame([data]) #data is dictionary
table = pa.Table.from_pandas(df)
pq.write_table(table, 'tmp/test.parquet', compression='snappy')
table = pq.read_table('tmp/test.parquet')
table.to_pandas()
print(table)

或者通过其他一些方法,只需要能够读取和写入使用 snappy 压缩的 parquet 文件。

最佳答案

我相信这是在部署到 lambda 的包中缺少 snappy 共享对象文件的问题。

https://github.com/andrix/python-snappy/issues/52#issuecomment-342364113

我在尝试从 Lambda 函数(从它没有写入权限的目录调用)中使用 snappy 进行编码时遇到了同样的错误,包括 libsnappy.so.1在我的 zipfile 中解决了它。

关于amazon-s3 - 使用 AWS Lambda 读取/写入 Parquet 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45368899/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com