gpt4 book ai didi

amazon-s3 - 在 python 中使用 s3 select 解析多个 Parquet 文件?

转载 作者:行者123 更新时间:2023-12-05 07:18:16 24 4
gpt4 key购买 nike

我正在尝试使用 boto3 从单个 S3 存储桶子文件夹中读取多个 Parquet 文件。

我在使用 python 读取单个 csv 文件时没有遇到任何问题,但我之前无法让它处理多个文件读取。

看到之前的回答说aws不支持这个。但是,据我了解,此功能已于 2018 年底实现。

那么,有没有办法使用我的工作代码(如下所示)为相关文件夹中的所有 Parquet 文件运行 s3 select 语句,即从所有文件中选择所有行?

存储桶中工作子文件夹中的文件:

_success
file1.snapy.parquet
file2.snapy.parquet

python 代码:

response = s3.select_object_content(
Bucket='somebucket',
Key= 'pathtosubfolder',
ExpressionType='SQL', <br>
InputSerialization = {'Parquet': {}},
Expression="select * from s3object s ",
OutputSerialization = {'CSV': {}},
)

我期望 sql 语句的结果,但是我得到了:

[ERROR] NoSuchKey: An error occurred (NoSuchKey) when calling the
SelectObjectContent operation: The specified key does not exist.

最佳答案

您可能想看看 Amazon Athena如果您想在 S3 中查询 parquet 格式对象的集合。

Athena 是完全托管的 Facebook Presto服务。

关于amazon-s3 - 在 python 中使用 s3 select 解析多个 Parquet 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58412372/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com