gpt4 book ai didi

amazon-web-services - 存储桶日志文件的 S3 数据分区

转载 作者:行者123 更新时间:2023-12-04 12:46:16 25 4
gpt4 key购买 nike

我有一个 s3 存储桶“ABC”,并且在此存储桶中启用了日志记录,并将日志存储在“ABC-logs”中。每天有许多文件出现在“ABC 日志”中。现在我想逐年分离这些日志。例如:

s3://ABC-logs/year=2015
s3://ABC-logs/year=2016
s3://ABC-logs/year=2017

做这个的最好方式是什么。
我想通过 awscli 来做,但每年年底,我都必须更改存储桶日志记录文件夹。

最佳答案

传统的方法是通过 Amazon EMR 集群 .

您可以使用 Hive 创建一个指向您的 的 EXTERNAL TABLE源数据 .然后,创建另一个 EXTERNAL TABLE 指向您想要的位置 存储数据 ,带有适当的参数,例如分区和文件类型。然后,从第一个表中选择数据并将其插入到目标表中。

分区数据对于查询更有效,因为如果知道查询不需要数据,则可以跳过整个文件夹。

关于amazon-web-services - 存储桶日志文件的 S3 数据分区,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47118448/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com