gpt4 book ai didi

amazon-s3 - 在交付给S3之前,可以在Kinesis Firehose中自定义分区吗?

转载 作者:行者123 更新时间:2023-12-04 19:27:37 27 4
gpt4 key购买 nike

我有一个Firehose流,旨在吸收来自不同来源和不同事件类型的数百万个事件。流应将所有数据作为原始\未更改数据的存储传递到一个S3存储桶。

我当时正在考虑根据事件消息中嵌入的元数据(例如事件源,事件类型和事件日期)在S3中对数据进行分区。

但是,Firehose根据记录到达时间遵循其默认分区。是否可以自定义此分区行为以满足我的需求?

最佳答案

不能。您不能基于事件内容进行“分区”。

一些选项是:

  • 发送到单独的Firehose流
  • 发送到Kinesis数据流(代替Firehose)并编写您自己的自定义Lambda函数来处理和保存数据(请参阅:AWS Developer Forums: Athena and Kinesis Firehose)
  • 使用Kinesis Analytics处理消息并将其“定向”到不同的Firehose流

  • 如果要将输出与Amazon Athena或Amazon EMR一起使用,则还可以考虑将其转换为Parquet格式,其格式为 much better performance。这将需要对S3中的数据进行批处理,而不是在数据到达流中时对其进行转换。

    关于amazon-s3 - 在交付给S3之前,可以在Kinesis Firehose中自定义分区吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51313937/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com