amazon-s3 - 如何将Kinesis流存储到S3存储桶中特定文件夹结构中的S3存储中-6ren

amazon-s3 - 如何将Kinesis流存储到S3存储桶中特定文件夹结构中的S3存储中

转载作者：行者123 更新时间：2023-12-04 03:37:36

25

4

我有Kinesis Stream捕获的事件。我想将所有事件放在S3上的特定文件夹结构上。我想制作一个带有日期戳的文件夹，就像6月15日的所有事件都应该放在该文件夹中，然后从6月16日开始，新文件夹应该来选择事件，依此类推。

作为Kinesis的新手，我只是去处理文档，我发现有一个连接器框架，其中S3Emitter与配置一起用于选择需要发送数据的S3位置。但是有人可以建议我如何维护文件夹结构在日期明智的文件夹中捕获事件日期？

最佳答案

不幸的是，目前您所寻找的功能在S3Emitter的Amazon Kinesis中不可用，相反，它只是用作根据输入数据量刷新的缓冲区，请参见相应。 comment:

This implementation of IEmitter is used to store files from a Kinesis stream in S3. [...] When the buffer is full, this class's emit method adds the contents of the buffer to S3 as one file. The filename is generated from the first and last sequence numbers of the records contained in that file separated by a dash. [...] [emphasis mine]

另外，Kinesis没有事件(重设数据记录)的第一级日期概念，而只处理序列号，因此您需要添加重设。应用程序级别的日期处理，请参阅 Amazon Kinesis Terminology中的“数据记录”部分:

Data records are the units of data that are stored in an Amazon Kinesis stream. Data records are composed of a sequence number, a partition key, and a data blob, which is an un-interpreted, immutable sequence of bytes. The Amazon Kinesis service does not inspect, interpret, or change the data in the blob in any way. [...] [emphasis mine]

关于amazon-s3 - 如何将Kinesis流存储到S3存储桶中特定文件夹结构中的S3存储中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24231900/

25

4

0

文章推荐： elasticsearch - 如何同步cassandra和elasticsearch

文章推荐： ruby-on-rails - 选择带有预加载的特定列

amazon-kinesis - Kinesis 分区键始终位于同一个分片中
我有一个带有 2 个分片的 kinesis 流，如下所示: { "StreamDescription": { "StreamStatus": "ACTIVE",
amazon-kinesis - Kinesis 的多个目的地
我们可以从单个 Kinesis Firehose 获得多个目的地吗？我看到了这张图片由此看来，可以从单个 Firehose 添加 s3、红移和 Elasticsearch 。我正是想这样做。但是当
amazon-kinesis - Kinesis 消耗滞后监控
我正在尝试在流级别收集 Kinesis 的指标，更具体地说，我想获得工作进程/消费者进程在流级别落后的计数，我不关心分片级别的滞后.我在 AWS 文档上找到了一个计算消耗滞后的示例，但它计算的是滞后时
amazon-kinesis - Kinesis Analytics 重叠滑动窗口
是否可以定义一个具有滑动间隔的窗口？例如。我需要每 10 秒计算过去 30 秒的总和吗？ Kinesis Analytics SQL 是否支持此类具有重叠的滑动窗口？最佳答案我认为跳窗代表你的需求
amazon-kinesis - 如何延迟处理 AWS Kinesis 消息？
我想将来自 AWS Kinesis 流的消息处理延迟一小时。我已将 KCL 使用者配置为每四分钟读取一批记录，检查每条记录的时间戳，并在任何记录不到一小时的情况下停止处理该批处理，没有检查点。我希望同
amazon-kinesis - 为什么在关闭分片时需要在 Amazon Kinesis 流上设置检查点？
将分片拆分为 2 个子分片时，父分片将关闭。当发生这种情况时，期望记录处理器(此处使用 KCL)将检查点，如以下 KCL 源代码所示: try { recordProc
amazon-kinesis - 如何确定 AWS kinesis 流中的分区键总数？
在生产者-消费者 Web 应用程序中，为 kinesis 流分片创建分区键的思考过程应该是什么。假设，我有一个包含 16 个分片的 kinesis 流，我应该创建多少个分区键？它真的取决于分片的数量
amazon-kinesis - 仅当记录数超过 x 条时才启动 Kinesis 消费者？
有没有办法创建具有缓冲区限制的 Kinesis 使用者？赞 here : #Flush when buffer exceeds 100000 Amazon Kinesis records, 64 MB
amazon-kinesis - Kinesis Stream 和 DynamoDB 流之间的区别
他们似乎对我做同样的事情。任何人都可以向我解释其中的区别吗？最佳答案两者的高层次区别: 运动流允许您生成和使用大量数据(日志、Web 数据等)，其中 DynamoDB 流是 DynamoDB
amazon-kinesis - 启动 Kinesis 消费者应用程序时如何使用 DynamoDB 表的状态？
从文档中可以清楚地看出，当以 TRIM_HORIZON 作为迭代器类型启动 KCL 应用程序时，将从流的开头读取记录。文档还提到应用程序的状态是通过使用检查点在 DynamoDB 表中维护的。但是我
amazon-kinesis - 将 Filebeat 日志发送到 AWS Kinesis
我的问题我有一个日志管道，其中使用 Filebeat 将日志写入文件并发送到 ElasticSearch。 .我想从 ElasticSearch 切换到 AWS Kinesis，我想知道为新输出配置
amazon-kinesis - 如何在 AWS Kinesis 中使用 ExplicitHashKey 进行循环流分配
我正在尝试通过 Amazon Kinesis 抽取大量数据(每秒订购 10,000 个点)。为了通过我的分片最大限度地提高每秒记录数，我想通过分片循环我的请求(我的应用程序逻辑不关心分片单个消息去哪
java - 连接 kinesis 生产者 AWS kinesis 443 时出错
无法打开与monitoring.us-east-1.amazonaws.com:443的连接:连接到AWS kinesis时证书验证失败 public static KinesisProducer g
amazon-kinesis-firehose - Kinesis Firehose putRecord 与 putRecordBatch
我正在将 Java API 用于 Kinesis Firehose，并在可能的情况下利用 putRecordBatch()。但是，在我的应用程序中，我偶尔只发送一条记录，无法等待更多记录或将其缓存在内
amazon-kinesis - 如何将 Java Kinesis 客户端库与 X-Ray 一起使用？
添加时aws-xray-recorder-sdk-aws-sdk-instrumentor KCL 提出 SegmentNotFoundException . 据我所知，这是因为 KCL 正在启动他们
amazon-web-services - Pinpoint 连接到 Kinesis 与直接流式传输到 Kinesis 的移动应用程序有什么区别？
我正在研究与移动分析相关的 AWS 服务，因为我们使用 AWS 作为我们的后端基础设施，现在想了解如何最好地利用 Pinpoint 和/或 Kinesis 以最终将事件存储在 S3 中以供以后分析。
amazon-web-services - Kinesis Firehose 是 Kinesis Streams 的替代品吗？
Kinesis Firehose 以及 Kinesis Streams 用于根据 AWS 博客中提到的详细信息加载流数据。对于 Firehose，没有分片或维护的概念。在这种情况下，Kinesis F
amazon-web-services - Kinesis Streams 和 Kinesis Firehose 有什么区别？
Firehose 是完全托管的，而 Streams 是手动管理的。如果其他人知道其他主要差异，请添加它们。我只是在学习。谢谢.. 最佳答案 Amazon Kinesis Data Firehose
amazon-kinesis - 扫雪机 scala 收集器 : Kinesis stream pockinesisfirehose doesn't exist
我正在做一个点击跟踪项目，我正在使用 Snowplow (开源)为此。我正在使用 Scala 扫雪机收集器来收集数据并将其路由到 Amazon Kinesis。但是，当我使用此配置启动它时: coll
amazon-kinesis - 通过设置 API 网关为 Amazon Kinesis 调用 REST API
我正在尝试发送 HTTP Post 请求以将记录放入 Amazon Kinesis Stream。有多种方法(Kinesis 客户端、KPL、将 AWS 网关设置为 Kinesis 代理)。我看到了

首页

博学

6Ren·AI

商城

amazon-s3 - 如何将Kinesis流存储到S3存储桶中特定文件夹结构中的S3存储中