aws-glue - 如何访问分区 Athena 表的子目录中的数据-6ren

aws-glue - 如何访问分区 Athena 表的子目录中的数据

转载作者：行者123 更新时间：2023-12-01 21:56:17

25

4

我有一个 Athena 表，每天都有一个分区，其中实际文件按小时在“子目录”中，如下所示:

s3://my-bucket/data/2019/06/27/00/00001.json
s3://my-bucket/data/2019/06/27/00/00002.json
s3://my-bucket/data/2019/06/27/01/00001.json
s3://my-bucket/data/2019/06/27/01/00002.json

Athena 能够毫无问题地查询此表并找到我的数据，但在使用 AWS Glue 时，它似乎无法找到此数据。

ALTER TABLE mytable ADD 
PARTITION (year=2019, month=06, day=27) LOCATION 's3://my-bucket/data/2019/06/27/01';

select day, count(*)
from mytable
group by day;

day .   count
27 .    145431

我已经尝试将分区的位置更改为以尾部斜杠结尾 (s3://my-bucket/data/2019/06/27/01/)，但这没有帮助。

以下是 Glue 中的分区属性。我希望 storedAsSubDirectories 设置会告诉它迭代子目录，但情况似乎并非如此:

{
    "StorageDescriptor": {
        "cols": {
            "FieldSchema": [
                {
                    "name": "userid",
                    "type": "string",
                    "comment": ""
                },
                {
                    "name": "labels",
                    "type": "array<string>",
                    "comment": ""
                }
            ]
        },
        "location": "s3://my-bucket/data/2019/06/27/01/",
        "inputFormat": "org.apache.hadoop.mapred.TextInputFormat",
        "outputFormat": "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat",
        "compressed": "false",
        "numBuckets": "0",
        "SerDeInfo": {
            "name": "JsonSerDe",
            "serializationLib": "org.openx.data.jsonserde.JsonSerDe",
            "parameters": {
                "serialization.format": "1"
            }
        },
        "bucketCols": [],
        "sortCols": [],
        "parameters": {},
        "SkewedInfo": {
            "skewedColNames": [],
            "skewedColValues": [],
            "skewedColValueLocationMaps": {}
        },
        "storedAsSubDirectories": "true"
    },
    "parameters": {}
}

当 Glue 针对同一分区/表运行时，它发现 0 行。

但是，如果所有数据文件都出现在分区的根“目录”中(即 s3://my-bucket/data/2019/06/27/00001.json)，那么 Athena 和 Glue 都可以找到数据。

Glue 找不到数据文件有什么原因吗？我不想为每个小时创建一个分区，因为这意味着每年有 8700 个分区(而 Athena 对每个表有 20,000 个分区的限制)。

最佳答案

显然，create_dynamic_frame 上有一个未记录的“递归”附加选项:additional_options = {"recurse": True}

示例:

athena_datasource = glueContext.create_dynamic_frame.from_catalog(database = target_database, table_name = target_table, push_down_predicate = "(year=='2019' and month=='06' and day=='27')", transformation_ctx = "athena_datasource", additional_options = {"recurse": True})

我刚刚使用此选项测试了我的 Glue 作业，可以确认它现在可以找到所有 s3 文件。

关于aws-glue - 如何访问分区 Athena 表的子目录中的数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56836447/

25

4

0

文章推荐： r - position_dodge 和 nudge_y 在一起

文章推荐： javascript - "sortItem"计算属性中的意外副作用

文章推荐： R Shiny : display text as code on several lines

amazon-athena - Amazon athena 无法读取 S3 访问日志文件，Athena 选择查询为每一列返回空结果集
我在 Athena 中成功创建了数据库表。请参阅下面的查询。 CREATE EXTERNAL TABLE IF NOT EXISTS s3_access_logs_db.wafbucket_lo
amazon-athena - athena 跳过以下划线开头的键
我正在尝试与 aws athena 合作，对我们存储在 s3 中的 json 文件进行一些查询。所以，我设法创建了一个简单的模式，一切似乎都很好，直到我注意到我的一些文件没有被考虑在内。文件的键是用
amazon-athena - presto athena 表作为变量
这个问题在这里已经有了答案: AWS ATHENA: user-defined variables (4 个答案) 关闭去年。我在 aws-athena 中有一个 SQL，它看起来或多或少像这样
amazon-athena - 如何处理 Athena 结果文件？
刚接触 AWS，第一次使用 Athena。将不胜感激任何帮助/澄清。我将查询结果位置设置为 s3://aws-athena-query-results-{ACCOUNTID}-{Region}，无论
amazon-athena - Aws Athena - 创建外部表跳过第一行
我正在尝试使用 Aws Athena 在 csv 文件上创建一个外部表，代码如下，但行 TBLPROPERTIES ("skip.header.line.count"="1")不起作用:它不会跳过 c
amazon-athena - Amazon Athena 允许查看访问并拒绝表访问
我需要将表中的某些字段隐藏到特定用户组。我想到了创建一个查看这允许我屏蔽这些字段。但是，一旦将权限设置为仅授予对 View 的访问权限，查询就会失败，因为它们还需要访问在 View 下正在查询的表
amazon-athena - 为 athena 选择特定文件
在 Athena 中创建表时，我无法使用特定文件创建表。有没有办法从给定的存储桶中选择以“year_2019”开头的所有文件？例如 s3://bucketname/prefix/year_2019*.
amazon-athena - 在 Amazon Athena 中按顺序显示分区
我有这个查询: SHOW PARTITIONS tablename; 结果是: dt=2018-01-12 dt=2018-01-20 dt=2018-05-21 dt=2018-04-07 dt=2
amazon-athena - 在 Amazon Athena 中创建表时转换时间戳
我一直在使用以下查询在 Athena 中创建一个表， CREATE EXTERNAL TABLE IF NOT EXISTS test.test_table ( `converteddat
amazon-athena - 如何在 Presto (Athena) 中将字符串转换为时间戳？
我想将字符串的数据类型(例如:'2018-03-27T00:20:00.855556Z')转换为时间戳(例如:'2018-03-27 00:20:00')。实际上我在 Athena 中执行查询: s
amazon-athena - AWS Athena map 查询
该表有一列像这样， data MAP 和行喜欢， id | data 1 | {"foo": 123} 2 | {"bar": 456} 那么，如何搜索 data["bar"] = 456？我
amazon-athena - 在 Athena/Presto 中将数组拆分为列
我觉得这应该很简单，但我一直在努力寻找正确的术语，请耐心等待。我有两列，timestamp和 voltages这是数组如果我做一个简单的 SELECT timestamp, voltages FR
amazon-athena - Apache 超集 : cannot read metadata from Athena
我正在尝试从超集访问 Athena，连接成功并且可以在 SQL 编辑器中看到所有模式和表(启用在 SQL 实验室中公开此数据库)。在 SQL 编辑器上加载元数据时返回以下错误: ERROR OCCU
amazon-athena - AWS Athena ODI JDBC 连接
有没有人尝试过从 Oracle Data Integrator 连接 AWS Athena。我一直在尝试这个，但我找不到合适的 JDBC 连接字符串。我遵循的步骤 https://docs.aws
amazon-athena - Athena MSCK 修复表返回 'tables not in metastore'
运行 MSCK repair tablename 命令时，athena查询编辑器返回错误 tables not in metastore . 但是表存在，我可以在该表上查询。我有数据保存在 S3形式
amazon-athena - 如何通过 API 创建 Athena 数据库
我想通过 API 在 Athena 中创建一个数据库。我在 S3 中有 Parquet 文件，我想使用 API 进行查询，我想使用 Athena 进行查询。无论如何，我可以通过 Athena 的 A
amazon-athena - 从嵌套的 json 源创建 Athena 表
如何从嵌套的 json 文件创建 Athena 表？这是我的示例 json 文件。我只需要选定的键值对，例如 roofcondition 和 garagestalls。 { "reportId":
amazon-athena - 从嵌套的 json 源创建 Athena 表
如何从嵌套的 json 文件创建 Athena 表？这是我的示例 json 文件。我只需要选定的键值对，例如 roofcondition 和 garagestalls。 { "reportId":
amazon-athena - 如何提取存储在 amazon Athena 中的 XML 数据？
我在 Amazon Athena 中获得了一张表，其中一列包含 XML 数据。这可能不是最好的方法，但我需要利用现有的资源。据我所知，没有原生支持从这些 XML 中提取数据(比如使用 XPATH 等
amazon-athena - 在 AWS Athena 中查询嵌套的 JSON 结构
我得到了以下格式的带有嵌套结构的 JSON 文档 { "id": "p-1234-2132321-213213213-12312", "name": "athena to the re

首页

博学

6Ren·AI

商城

aws-glue - 如何访问分区 Athena 表的子目录中的数据