duplicates - 如何对从AWS Kinesis Firehose到Redshift的记录进行重复数据删除？-6ren

duplicates - 如何对从AWS Kinesis Firehose到Redshift的记录进行重复数据删除？

转载作者：行者123 更新时间：2023-12-04 22:58:18

25

4

我阅读了官方AWS Kinesis Firehose的文档，但没有提及如何处理重复的事件。有没有人有经验？我用Google搜索某人使用ElasticCache进行过滤，这是否意味着我需要使用AWS Lambda封装此类过滤逻辑？是否有像firehose这样的简单方法将数据提取到Redshift中，同时具有“恰好一次”的语义？非常感谢!

最佳答案

您可以在Kinesis Stream的两侧进行复制。您可能会将相同的事件两次放入Stream中，并且消费者可能会两次读取该事件。

如果您尝试将事件放到Kinesis流中，则生产者端可能会发生，但是由于某种原因，您不确定该事件是否被成功写入，因此您决定再次放置它。如果您获取一批事件并开始处理它们，并且在您设法检查点位置之前崩溃，并且下一个工作人员正在根据最近的检查点从Kinesis流中选择同一批事件，则发生使用者方面可能会发生序列ID。

在开始解决此问题之前，您应该评估多久进行一次此类重复以及此类重复对业务产生的影响。并非每个系统都在处理不能容忍重复的金融交易。但是，如果您决定需要进行重复数据删除，一种常见的解决方法是使用某些事件ID，并跟踪是否已经处理了该事件ID。

带Redis的ElasticCache是跟踪事件ID的好地方。每次选择要处理的事件时，都会检查Redis的哈希表中是否已包含该事件，如果找到该事件，则将其跳过，如果未找到，则将其添加到表中(带有基于此类复制的可能时间窗口的一些TTL)。

如果选择使用Kinesis Firehose(而不是Kinesis Streams)，则您将无法再控制使用者应用程序，因此无法实现此过程。因此，您要么想在生产方运行这种重复数据删除逻辑，要么切换到使用Kinesis Streams并在Lambda或KCL中运行自己的代码，要么在Redshift中适应重复数据删除功能(请参见下文)。

如果您对复制不太敏感，则可以在Redshift中使用某些函数，例如WINDOW函数中的COUNT DISTINCT或LAST_VALUE。

关于duplicates - 如何对从AWS Kinesis Firehose到Redshift的记录进行重复数据删除？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34824553/

25

4

0

文章推荐： ffmpeg 管道图像到 redis

文章推荐： ffmpeg - 将 FLAC 文件切成 5 秒的片段

amazon-kinesis-firehose - Kinesis Firehose putRecord 与 putRecordBatch
我正在将 Java API 用于 Kinesis Firehose，并在可能的情况下利用 putRecordBatch()。但是，在我的应用程序中，我偶尔只发送一条记录，无法等待更多记录或将其缓存在内
amazon-kinesis-firehose - 如何为 S3 上的 AWS Firehose 设置目标文件名？
我正在处理一个添加到 S3 的 XML 文件并将结果写入到 firehose，并将结果存储在同一个 S3 存储桶中，但目标文件名必须采用特定格式。我检查了文档，但看不到任何设置文件名格式的方法。我能找
amazon-web-services - 使用 Cloudformation 针对 Kinesis Firehose 的 AWS Put 订阅筛选器 - 检查给定的 Firehose 流是否处于 ACTIVE 状态
按照此 guide 并创建 Kinesis Firehose 流。我已按照指南进行操作，当我开始创建订阅过滤器(步骤 12)时，我在尝试发送到 S3 时遇到此错误: 调用 PutSubscripti
amazon-web-services - CLI将数据放入AWS Firehose
AWS Firehose已于今天发布。我正在研究它，并试图弄清楚如何使用AWS CLI将数据放入流中。我有一个简单的JSON有效负载和对应的Redshift表，其中的列映射到JSON属性。我尝试了各种
javascript - Firehose 无法承担 Angular 色
我正在尝试使用 Firehose API (JS)我不断收到以下错误: "InvalidArgumentException: Firehose is unable to assume role arn
node.js - 使用单个 firehose 将数据索引到多个索引
我试图了解是否可以使用 kinesis firehose 将数据索引到 elasticsearch 到多个索引，方法是将索引名称和类型传递给它(类似于 elasticsaerch bulk api)
php - 对 Amazon Firehose 的异步请求
是否可以异步向 AWS 发送请求？在真正意义上。如果我尝试以某种方式发送消息，则消息未送达: $firehose = new FirehoseClient($args); /
amazon-web-services - Firehose 转换输出的格式
我将 AWS Kinesis Firehose 与自定义数据转换结合使用。 Lambda 用 Python 3.6 编写并返回如下所示的字符串: { "records": [
python - 构建 simlpe django firehose
我有一个应用程序，我想构建一个包含 2-3 种组合事件类型的“最近事件”/firehose feed，例如帖子、评论和帖子点赞，以及其他内容 + 稍后可能会更多。我假设这是通过查询添加到数据库中的最后
json - 如何读取无效的 JSON 格式亚马逊 firehose
我遇到了这个最可怕的场景，我想读取 kinesis firehose 在我们的 S3 上创建的文件。 Kinesis firehose 创建的文件并不是每个 json 对象都在一个新行上，而是一个 j
algorithm - CCC 的 FireHose (S3)
这个 11 年级的问题自 2010 年以来一直困扰着我，即使在大学毕业后我仍然无法弄清楚/找到解决方案。 Problem Description There is a very unusual str
python - Kinesis Firehose λ 转换
我有以下 lambda 函数作为 Kinesis firehose 记录转换的一部分，它将 msgpack 记录从 kinesis 输入流转换为 json。 Lambda 运行时:python 3.6
amazon-web-services - AWS Firehose 数据转换并发限制
我有一个用例，我必须每秒从不同的生产者收集数千条记录，并使用 AWS firehose 将它们推送到 Elasticsearch 。我还在 firehose 上使用数据转换 lambda，它在将记录传
amazon-web-services - Kinesis Firehose 可以进行过滤吗？
所以我们有 100 种不同类型的消息进入我们的 Kinesis 流。我们只想保存 4 种类型。我知道 Kinesis 可以转换消息，但它也可以过滤吗？这是怎么做到的？最佳答案过滤只是一种转换，您可
amazon-web-services - 是否可以跨账户 Kinesis Firehose？
账户 A 是我在其中创建 Kinesis 流的应用程序账户，我想在账户 B 中创建 Firehose 以从账户 A Kinesis 流中读取。这可能吗？我尝试按照 ( https://medium.c
amazon-web-services - AWS Firehose 缓冲
将记录写入到配置为 S3 作为输出目标的 AWS Firehose 时，此数据在写入 S3 之前缓冲了多长时间？或者是否有最小尺寸阈值？例如，我正在执行以下操作来添加记录: aws cli: aws
amazon-s3 - Kinesis Firehose KMS 加密
我正在为 S3 设置 Kinesis Firehose 传输流，我注意到您可以设置自定义 KMS key 以用于加密 S3 上的文件。但是，如果 S3 存储桶已启用 KMS 加密，则无论如何都会对文
amazon-web-services - AWS Firehose 换行符
我已经阅读了很多关于向 firehose 添加换行符的类似问题，但它们都围绕着将换行符添加到源代码中。问题是我无权访问源，第三方正在将数据传输到我们的 Kinesis 实例，我无法将 '\n' 添加到
java - java 程序写入 Kinesis Firehose 流时出现错误
我正在尝试将一些数据从 API(谷歌股票/金融 API)写入我的 AWS Firehose 流。我已经在 Eclipse 上下载并安装了 AWS 插件，在 AWS 上设置了我的 Firehose 流，
json - 从 kinesis firehose 解析 json
您好，我正在尝试将 kinesis firehose 与 S3 结合使用。我试着阅读那些 s3 文件。我正在使用 GO 阅读它。但是，我无法解析 JSON，因为值只是在没有任何分隔符的情况下附加。

首页

博学

6Ren·AI

商城

duplicates - 如何对从AWS Kinesis Firehose到Redshift的记录进行重复数据删除？