java - kinesis从多个分片获取数据-6ren

java - kinesis从多个分片获取数据

转载作者：行者123 更新时间：2023-11-30 07:23:25

25

4

我正在尝试构建一个从 AWS Kinesis 读取数据的简单应用程序。我已经设法使用单个分片读取数据，但我想从 4 个不同的分片获取数据。

问题是，我有一个 while 循环，只要分片处于 Activity 状态，它就会进行迭代，这会阻止我从不同分片读取数据。到目前为止，我找不到替代算法，也无法实现基于 KCL 的解决方案。非常感谢提前

public static void DoSomething() {
        AmazonKinesisClient client = new AmazonKinesisClient();
        //noinspection deprecation
        client.setEndpoint(endpoint, serviceName, regionId);  
        /** get shards from the stream using describe stream method*/

        DescribeStreamRequest describeStreamRequest = new DescribeStreamRequest();
        describeStreamRequest.setStreamName(streamName);
        List<Shard> shards = new ArrayList<>();
        String exclusiveStartShardId = null;
        do {
            describeStreamRequest.setExclusiveStartShardId(exclusiveStartShardId);
            DescribeStreamResult describeStreamResult = client.describeStream(describeStreamRequest);
            shards.addAll(describeStreamResult.getStreamDescription().getShards());
            if (describeStreamResult.getStreamDescription().getHasMoreShards() && shards.size() > 0) {
                exclusiveStartShardId = shards.get(shards.size() - 1).getShardId();
            } else {
                exclusiveStartShardId = null;
            }
        }while (exclusiveStartShardId != null);

        /** shards obtained */
        String shardIterator;

        GetShardIteratorRequest getShardIteratorRequest = new GetShardIteratorRequest();
        getShardIteratorRequest.setStreamName(streamName);
        getShardIteratorRequest.setShardId(shards.get(0).getShardId());
        getShardIteratorRequest.setShardIteratorType("LATEST"); 

        GetShardIteratorResult getShardIteratorResult = client.getShardIterator(getShardIteratorRequest);
        shardIterator = getShardIteratorResult.getShardIterator();
        GetRecordsRequest getRecordsRequest = new GetRecordsRequest();

        while (!shardIterator.equals(null)) {
            getRecordsRequest.setShardIterator(shardIterator);
            getRecordsRequest.setLimit(250);
            GetRecordsResult getRecordsResult = client.getRecords(getRecordsRequest);
            List<Record> records = getRecordsResult.getRecords();

            shardIterator = getRecordsResult.getNextShardIterator();
            if(records.size()!=0) {
                for(Record r : records) {
                    System.out.println(r.getPartitionKey());
                }
            }
            try {
                Thread.sleep(1000);
            } catch (InterruptedException e) {

            }
        }
    }

最佳答案

建议您不要从多个分片中的单个进程/工作线程中读取数据。首先，正如您所看到的，它增加了代码的复杂性，但更重要的是，您将遇到扩展问题。

可扩展性的“ secret ”是拥有小型且独立的工作人员或其他此类单位。您可以在 AWS 中的 Hadoop、DynamoDB 或 Kinesis 中看到此类设计。它允许您构建小型系统(微服务)，可以根据需要轻松扩展和缩小。随着您的服务变得更加成功，或者其使用情况发生其他波动，您可以轻松添加更多工作/数据单元。

正如您在这些 AWS 服务中所看到的，您有时可以在 DynamoDB 中自动获得这种可扩展性，有时您需要将分片添加到您的 kinesis 流中。但对于您的应用程序，您需要以某种方式控制您的可扩展性。

对于 Kinesis，您可以使用 AWS Lambda 或 Kinesis 客户端库 (KCL) 进行扩展和缩减。他们都在监听流的状态(分片和事件的数量)，并使用它来添加或删除工作人员并传递事件供他们处理。在这两种解决方案中，您都应该构建一个针对单个分片工作的工作线程。

如果您需要对齐来自多个分片的事件，您可以使用某些状态服务(例如 Redis 或 DynamoDB)来实现。

关于java - kinesis从多个分片获取数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37162901/

25

4

0

文章推荐： java - 用java模仿浏览器

文章推荐： java - 在 RealmObject 外部创建托管 RealmList

文章推荐： java - 分配结果集时未发现数据异常

文章推荐： java - 如何实现自定义对象的 Compare to 方法

amazon-kinesis - Kinesis 分区键始终位于同一个分片中
我有一个带有 2 个分片的 kinesis 流，如下所示: { "StreamDescription": { "StreamStatus": "ACTIVE",
amazon-kinesis - Kinesis 的多个目的地
我们可以从单个 Kinesis Firehose 获得多个目的地吗？我看到了这张图片由此看来，可以从单个 Firehose 添加 s3、红移和 Elasticsearch 。我正是想这样做。但是当
amazon-kinesis - Kinesis 消耗滞后监控
我正在尝试在流级别收集 Kinesis 的指标，更具体地说，我想获得工作进程/消费者进程在流级别落后的计数，我不关心分片级别的滞后.我在 AWS 文档上找到了一个计算消耗滞后的示例，但它计算的是滞后时
amazon-kinesis - Kinesis Analytics 重叠滑动窗口
是否可以定义一个具有滑动间隔的窗口？例如。我需要每 10 秒计算过去 30 秒的总和吗？ Kinesis Analytics SQL 是否支持此类具有重叠的滑动窗口？最佳答案我认为跳窗代表你的需求
amazon-kinesis - 如何延迟处理 AWS Kinesis 消息？
我想将来自 AWS Kinesis 流的消息处理延迟一小时。我已将 KCL 使用者配置为每四分钟读取一批记录，检查每条记录的时间戳，并在任何记录不到一小时的情况下停止处理该批处理，没有检查点。我希望同
amazon-kinesis - 为什么在关闭分片时需要在 Amazon Kinesis 流上设置检查点？
将分片拆分为 2 个子分片时，父分片将关闭。当发生这种情况时，期望记录处理器(此处使用 KCL)将检查点，如以下 KCL 源代码所示: try { recordProc
amazon-kinesis - 如何确定 AWS kinesis 流中的分区键总数？
在生产者-消费者 Web 应用程序中，为 kinesis 流分片创建分区键的思考过程应该是什么。假设，我有一个包含 16 个分片的 kinesis 流，我应该创建多少个分区键？它真的取决于分片的数量
amazon-kinesis - 仅当记录数超过 x 条时才启动 Kinesis 消费者？
有没有办法创建具有缓冲区限制的 Kinesis 使用者？赞 here : #Flush when buffer exceeds 100000 Amazon Kinesis records, 64 MB
amazon-kinesis - Kinesis Stream 和 DynamoDB 流之间的区别
他们似乎对我做同样的事情。任何人都可以向我解释其中的区别吗？最佳答案两者的高层次区别: 运动流允许您生成和使用大量数据(日志、Web 数据等)，其中 DynamoDB 流是 DynamoDB
amazon-kinesis - 启动 Kinesis 消费者应用程序时如何使用 DynamoDB 表的状态？
从文档中可以清楚地看出，当以 TRIM_HORIZON 作为迭代器类型启动 KCL 应用程序时，将从流的开头读取记录。文档还提到应用程序的状态是通过使用检查点在 DynamoDB 表中维护的。但是我
amazon-kinesis - 将 Filebeat 日志发送到 AWS Kinesis
我的问题我有一个日志管道，其中使用 Filebeat 将日志写入文件并发送到 ElasticSearch。 .我想从 ElasticSearch 切换到 AWS Kinesis，我想知道为新输出配置
amazon-kinesis - 如何在 AWS Kinesis 中使用 ExplicitHashKey 进行循环流分配
我正在尝试通过 Amazon Kinesis 抽取大量数据(每秒订购 10,000 个点)。为了通过我的分片最大限度地提高每秒记录数，我想通过分片循环我的请求(我的应用程序逻辑不关心分片单个消息去哪
java - 连接 kinesis 生产者 AWS kinesis 443 时出错
无法打开与monitoring.us-east-1.amazonaws.com:443的连接:连接到AWS kinesis时证书验证失败 public static KinesisProducer g
amazon-kinesis-firehose - Kinesis Firehose putRecord 与 putRecordBatch
我正在将 Java API 用于 Kinesis Firehose，并在可能的情况下利用 putRecordBatch()。但是，在我的应用程序中，我偶尔只发送一条记录，无法等待更多记录或将其缓存在内
amazon-kinesis - 如何将 Java Kinesis 客户端库与 X-Ray 一起使用？
添加时aws-xray-recorder-sdk-aws-sdk-instrumentor KCL 提出 SegmentNotFoundException . 据我所知，这是因为 KCL 正在启动他们
amazon-web-services - Pinpoint 连接到 Kinesis 与直接流式传输到 Kinesis 的移动应用程序有什么区别？
我正在研究与移动分析相关的 AWS 服务，因为我们使用 AWS 作为我们的后端基础设施，现在想了解如何最好地利用 Pinpoint 和/或 Kinesis 以最终将事件存储在 S3 中以供以后分析。
amazon-web-services - Kinesis Firehose 是 Kinesis Streams 的替代品吗？
Kinesis Firehose 以及 Kinesis Streams 用于根据 AWS 博客中提到的详细信息加载流数据。对于 Firehose，没有分片或维护的概念。在这种情况下，Kinesis F
amazon-web-services - Kinesis Streams 和 Kinesis Firehose 有什么区别？
Firehose 是完全托管的，而 Streams 是手动管理的。如果其他人知道其他主要差异，请添加它们。我只是在学习。谢谢.. 最佳答案 Amazon Kinesis Data Firehose
amazon-kinesis - 扫雪机 scala 收集器 : Kinesis stream pockinesisfirehose doesn't exist
我正在做一个点击跟踪项目，我正在使用 Snowplow (开源)为此。我正在使用 Scala 扫雪机收集器来收集数据并将其路由到 Amazon Kinesis。但是，当我使用此配置启动它时: coll
amazon-kinesis - 通过设置 API 网关为 Amazon Kinesis 调用 REST API
我正在尝试发送 HTTP Post 请求以将记录放入 Amazon Kinesis Stream。有多种方法(Kinesis 客户端、KPL、将 AWS 网关设置为 Kinesis 代理)。我看到了

首页

博学

6Ren·AI

商城

java - kinesis从多个分片获取数据