amazon-web-services - 适用于Kafka的Amazon Managed Streaming-MSK功能和性能-6ren

amazon-web-services - 适用于Kafka的Amazon Managed Streaming-MSK功能和性能

转载作者：行者123 更新时间：2023-12-03 22:52:06

我正在评估AWS Managed Service Kafka（MSK），并且我知道当前它处于预览模式，因此可能没有所有功能或适当的文档。我尝试设置msk集群，并正在验证msk是否可以满足我们公司的所有用例/要求，但是目前，它缺少文档和示例。

https://docs.aws.amazon.com/msk/latest/developerguide/what-is-msk.html

我有以下查询：

i）如何使用在本地系统上运行的Kafka客户端访问AWS MSK？

ii）MSK是否支持架构演化并且仅支持一次语义？

iii）MSK是否提供某种方式来更新某些群集或调整配置？像AWS胶水一样，可在其托管环境中为火花执行器和驱动程序内存提供参数更改。

iv）是否可以将MSK与其他AWS服务（例如Redshift，EMR等）集成？

v）我可以通过ksql将流式SQL与MSK一起使用吗？如何使用MSK设置KSQL？

vi）如何对通过MSK传输的数据进行实时预测分析？

vii）与来自Azure / confluent的其他基于云的kafka群集相比，MSK的可靠性如何？与香草kafka相比，任何性能基准如何？集群中可以启动的最大经纪人数量是多少？

最佳答案

MSK基本上是由aws定制和管理的香草apache kafka集群（具有基于集群实例类型，代理数量等的预定义配置设置），并且已针对云环境进行了调整。

理想情况下，它应该能够执行开源Kafka支持的所有/大多数功能。
另外，如果您有未记录的特定用例或需求，我建议您联系AWS支持以进一步了解kafka集群的托管部分（允许的最大代理数量，可靠性，成本）。

我将根据我的个人经验尝试回答您的问题：

i）如何使用在本地系统上运行的kafka客户端访问AWS MSK？

您不能使用kafka客户端或kafka流直接从本地或本地计算机访问MSK。因为代理URL，zookeeper连接字符串是msk群集vpc /子网的私有ip。要通过kafka客户端进行访问，您需要在MsK的同一vpc中启动ec2实例，并执行kafka客户端（生产者/消费者）以访问msk集群。

要从本地计算机或本地系统访问MSK群集，您可以设置由Confluent开源的kafka Rest Proxy框架，以通过rest api从外界访问MSK群集。该框架不是完整的kafka客户端，并且不允许kafka客户端的所有操作，但是您可以在群集上执行大多数操作，从获取群集的元数据，主题信息，生成和使用消息等开始。

首先设置融合的repo和ec2实例安全组（请参阅-第1节：预安装或设置其他kafka组件），然后安装/设置kafka rest代理。

sudo yum install confluent-kafka-rest

创建文件名kafka-rest.properties并添加以下内容-

bootstrap.servers=PLAINTEXT://10.0.10.106:9092,PLAINTEXT://10.0.20.27:9092,PLAINTEXT://10.0.0.119:9092
zookeeper.connect=10.0.10.83:2181,10.0.20.22:2181,10.0.0.218:2181
schema.registry.url=http://localhost:8081

**修改bootstrapserver和zookeeper的url / ips。

启动休息服务器

kafka-rest-start kafka-rest.properties &

通过带有curl或rest客户端/浏览器的rest API访问MSK。

获取主题列表

curl "http://localhost:8082/topics"

curl "http://<ec2 instance public ip>:8082/topics"

为了从本地或本地计算机进行访问，请确保运行其余服务器的ec2实例已连接了公共IP或弹性IP。

更多Rest API操作
https://github.com/confluentinc/kafka-rest

ii）MSK是否支持架构演化并且仅支持一次语义？

您可以将avro消息与“架构注册表”一起使用以实现架构演变和架构维护。

安装和设置架构注册表类似于融合的kafka-rest代理。

sudo yum install confluent-schema-registry

创建文件名schema-registry.propertie并添加以下内容-

listeners=http://0.0.0.0:8081
kafkastore.connection.url=10.0.10.83:2181,10.0.20.22:2181,10.0.0.218:2181
kafkastore.bootstrap.servers=PLAINTEXT://10.0.10.106:9092,PLAINTEXT://10.0.20.27:9092,PLAINTEXT://10.0.0.119:9092
kafkastore.topic=_schemas
debug=false

**修改bootstrapserver和zookeeper（连接）的url / ips。

启动架构注册表服务

schema-registry-start schema-registry.properties &

请参阅更多信息：
https://github.com/confluentinc/schema-registry

https://docs.confluent.io/current/schema-registry/docs/schema_registry_tutorial.html

语义恰好是apache kafka的功能，尽管我尚未在msk上对其进行测试，但我相信它应该支持此功能，因为它仅是开源apache kafka的一部分。

iii）MSK是否提供某种方式来更新某些群集或调整配置？像AWS胶水一样，可在其托管环境中为火花执行器和驱动程序内存提供参数更改。

是的，可以在运行时更改配置参数。我已经通过使用kafka配置工具更改了retention.ms参数进行了测试，所做的更改立即应用于该主题。因此，我认为您也可以更新其他参数，但MSK可能不允许所有配置更改，就像AWS胶水仅允许少量Spark配置参数更改一样，因为允许用户更改所有参数可能会受到托管环境的影响。

通过kafka配置工具进行更改

kafka-configs.sh --zookeeper 10.0.10.83:2181,10.0.20.22:2181,10.0.0.218:2181  --entity-type topics --entity-name jsontest --alter --add-config retention.ms=128000

使用休息验证变更

curl "http://localhost:8082/topics/jsontest"

现在，Amazon MSK使您能够创建自定义MSK配置。

请参考以下文档以获取可更新的配置/参数：

https://docs.aws.amazon.com/msk/latest/developerguide/msk-configuration-properties.html

也是MSK Kafka的默认配置：

https://docs.aws.amazon.com/msk/latest/developerguide/msk-default-configuration.html

iv）是否可以将MSK与其他AWS服务（例如Redshift，EMR等）集成？

是的，您可以使用MSK连接/集成到其他AWS服务。例如，您可以运行Kafka客户端（消费者）从kafka读取数据并写入redshift，rds，s3或dynamodb。确保kafka客户端正在ec2实例（在msk vpc内）上运行，该实例具有适当的iam角色来访问那些服务，并且ec2实例在公共子网或私有子网中（具有s3的NAT或vpc端点）。

您也可以在MSK群集vpc /子网中启动EMR，然后通过EMR（spark）可以连接到其他服务。

使用AWS托管服务Kafka的Spark结构流式传输

在MSK群集的vpc中启动EMR群集
在端口9092的MSK群集安全组的入站规则中允许EMR主从安全组

启动Spark Shell

spark-shell --packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0

从Spark结构流连接到MSK群集

val kafka = spark.readStream.format("kafka").option("kafka.bootstrap.servers", "10.0.10.106:9092,10.0.20.27:9092,10.0.0.119:9092").option("subscribe", "jsontest") .load()

开始在控制台上阅读/打印消息

val df=kafka.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)").writeStream.format("console").start()

要么

val df=kafka.selectExpr("CAST(value AS STRING)").writeStream.format("console").start()

v）我可以通过ksql将流式SQL与MSK一起使用吗？如何使用MSK设置KSQL？

是的，您可以使用MSK群集设置KSQL。基本上，您需要在MSK群集的同一vpc /子网中启动ec2实例。然后在ec2实例中安装ksql server +客户端并使用它。

首先设置汇合的仓库和ec2实例安全组（请参阅-第1节：预安装或设置其他kafka组件），然后安装/设置Ksql服务器/客户端。

之后安装ksql服务器

sudo yum install confluent-ksql

创建文件名ksql-server.properties并添加以下内容-

bootstrap.servers=10.0.10.106:9092,10.0.20.27:9092,10.0.0.119:9092
listeners=http://localhost:8088

**修改引导服务器ips / url。

启动ksql服务器

ksql-server-start ksql-server.properties &

之后，启动ksql cli

ksql http://localhost:8088

最后运行命令以获取主题列表

ksql> SHOW TOPICS;

 Kafka Topic | Registered | Partitions | Partition Replicas | Consumers | ConsumerGroups 
-----------------------------------------------------------------------------------------
 _schemas    | false      | 1          | 3                  | 0         | 0              
 jsontest    | false      | 1          | 3                  | 1         | 1              
----------------------------- --------------------------------------------------

请参阅更多信息
https://github.com/confluentinc/ksql

vi）如何对流经MSK的数据进行实时预测分析？

进行预测分析或实时机器学习实际上并不是MSK特有的。您将对kafka群集（或任何流传输管道）进行处理的方式，同样适用于MSK。根据您的确切要求，可以使用多种方法来实现，但我将介绍整个行业中最常见或使用最广泛的一种方法：

将Spark与MSK（kafka）结合使用，并通过结构流和MLIB（具有预测模型）进行分析。
您可以在 H20.ai框架中训练预测模型，然后将模型导出为java pojo。然后将Java pojo模型与kafka消费者代码集成，该代码将处理来自msk（kafka）主题的消息并进行实时分析。
您可以训练模型并在sagemaker中进行部署，然后从kafka客户端使用者代码中调用以通过基于kafka数据/消息调用sagemaker模型推断端点来获取实时预测。

vii）与来自Azure / confluent的其他基于云的kafka群集相比，MSK的可靠性如何？与香草kafka相比，任何性能基准如何？集群中可以启动的最大经纪人数量是多少？

如您所知，MSK处于预览阶段，因此要说其可靠性还为时过早。但总的来说，与所有其他AWS服务一样，它应该随着时间的推移变得更加可靠，并有望带来新功能和更好的文档。

我认为AWS或任何云供应商都不会提供谷歌云服务的性能基准，因此您必须从自己的角度进行性能测试。 kafka客户/工具（kafka-producer-perf-test.sh，kafka-consumer-perf-test.sh）提供了性能基准脚本，可以执行该脚本以了解群集的性能概念。再次，在实际生产场景中对服务的性能测试将根据各种因素而变化很大，例如（消息大小，进入kafka，同步或异步生产者的数据量，有多少消费者等），而性能将下降到特定的水平。用例，而不是通用基准。

关于集群中支持的最大代理数量，最好通过其支持系统询问AWS人员。

第1节：预安装或设置-其他kafka组件：

在MSK群集的vpc /子网中启动Ec2实例。

登录到ec2实例

设置yum repo以通过yum下载融合的kafka组件包

sudo yum install curl which
  sudo rpm --import https://packages.confluent.io/rpm/5.1/archive.key

导航到/etc/yum.repos.d/并创建一个名为confluent.repo的文件并添加以下内容

[Confluent.dist]
name=Confluent repository (dist)
baseurl=https://packages.confluent.io/rpm/5.1/7
gpgcheck=1
gpgkey=https://packages.confluent.io/rpm/5.1/archive.key
enabled=1

[Confluent]
name=Confluent repository
baseurl=https://packages.confluent.io/rpm/5.1
gpgcheck=1
gpgkey=https://packages.confluent.io/rpm/5.1/archive.key
enabled=1

下一个干净的百胜回购

sudo yum clean all

在端口9092（连接代理）和2081（连接Zookeeper）的MSK群集安全组的入站规则中允许ec2实例的安全组。

第2部分：获取MSK群集代理和Zookeeper URL / IP信息的命令

Zookeeper连接URL端口

aws kafka describe-cluster --region us-east-1 --cluster-arn <cluster arn>

代理连接网址端口

aws kafka get-bootstrap-brokers --region us-east-1 --cluster-arn <cluster arn>

-------------------------------------------------- --------------------

注意：

MSK概述和组件设置：

请参考MSK高级体系结构以及如何设置各种组件（其余，架构注册表，粘性负载均衡器等）。以及它将如何与其他AWS服务连接。它只是一个简单的参考体系结构。
同样，除了在ec2实例上设置rest，schema注册表和ksql之外，您还可以在容器内进行dockerize。
而且，如果要设置多个Rest代理，则需要将该Rest-Proxy服务放在粘性负载均衡器之后（例如，使用ip hash的nginx），以确保同一客户使用者映射到同一使用者组，以避免数据获取不匹配/不一致。跨数据读取。

希望以上信息对您有用！

关于amazon-web-services - 适用于Kafka的Amazon Managed Streaming-MSK功能和性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55408193/

文章推荐： javascript - 按多个值过滤对象数组

文章推荐： ionic-framework - 如何在ionic 4中设置标题背景颜色

文章推荐： java - 使用 Java 连接到 FTP

文章推荐： c# - 赋予委托(delegate)属性的优雅方式

apache-kafka - 由于 Windows 上的致命异常 (kafka.Kafka$)，错误退出 Kafka - Apache Kafka
我在 Windows 机器上启动 Kafka-Server 时出现以下错误。我已经从以下链接下载了 Scala 2.11 - kafka_2.11-2.1.0.tgz:https://kafka.ap
noclassdeffounderror - kafka NoClassDefFoundError kafka/Kafka
关于Apache-Kafka messaging queue . 我已经从 Kafka 下载页面下载了 Apache Kafka。我已将其提取到 /opt/apache/installed/kafka
apache-kafka - 当底层的 Kafka 主题被删除时，Kafka 服务器上的 Kafka 消费者组会发生什么？
假设我有 Kafka 主题 cars。我还有一个消费者组 cars-consumers 订阅了 cars 主题。 cars-consumers 消费者组当前位于偏移量 89。当我现在删除 cars
apache-kafka - 我应该用什么 : Kafka Stream or Kafka consumer api or Kafka connect
我想知道什么最适合我:Kafka 流或 Kafka 消费者 api 或 Kafka 连接？我想从主题中读取数据，然后进行一些处理并写入数据库。所以我编写了消费者，但我觉得我可以编写 Kafka 流应
apache-kafka - Kafka 流与 Kafka 消费者如何决定使用什么
我曾研究过一些 Kafka 流应用程序和 Kafka 消费者应用程序。最后，Kafka流不过是消费来自Kafka的实时事件的消费者。因此，我无法弄清楚何时使用 Kafka 流或为什么我们应该使用
apache-kafka - Kafka 确认与 Kafka 提交
Kafka Acknowledgement 和 Kafka 消费者 commitSync() 有什么区别两者都用于手动偏移管理，并希望两者同步工作。请协助最佳答案使用 spring-kafka
apache-kafka - 如何在 Kafka 代理上代理 Apache Kafka 生产者请求，并重定向到单独的 Kafka 集群？
如何在 Kafka 代理上代理 Apache Kafka 生产者请求，并重定向到单独的 Kafka 集群？在我的特定情况下，无法更新写入此集群的客户端。这意味着，执行以下操作是不可行的: 更新客户端
apache-kafka - ConsumerOffsetChecker 的 Kafka 10 kafka-consumer-groups.sh 与 Kafka 8 kafka-run-class.sh
我需要在 Kafka 10 中命名我的消费者，就像我在 Kafka 8 中所做的一样，因为我有脚本可以嗅出并进一步使用这些信息。显然，consumer.id 的默认命名已更改(并且现在还单独显示了
【kafka】kafka /log_dir_event_notification的LogDir脱机事件通知
1.概述我们会看到zk的数据中有一个节点/log_dir_event_notification/，这是一个序列号持久节点这个节点在kafka中承担的作用是: 当某个Broker上的LogDir出现
apache-kafka - 如何使用 kafka 工具集生成具有空值的 Kafka 记录
我正在使用以下命令: bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test.topic --property
spring-kafka - 如何针对服务器上运行的真实 kafka 代理测试 kafka 消费者？
我很难理解 Java Spring Boot 中的一些 Kafka 概念。我想针对在服务器上运行的真实 Kafka 代理测试消费者，该服务器有一些生产者已将数据写入/已经将数据写入各种主题。我想与服务
apache-kafka - 如何在 Kafka 流中获取当前的 Kafka 主题？
我的场景是我使用了很多共享前缀的 Kafka 主题(例如 house.door, house.room ) 并使用 Kafka 流正则表达式主题模式 API 使用所有主题。一切看起来都不错，我得到了
apache-kafka - kafka AdminClient 获取 kafka 版本
有没有办法以编程方式获取kafka集群的版本？例如，使用AdminClient应用程序接口(interface)。我想在消费者/生产者应用程序中识别 kafka 集群的版本。最佳答案目前无法检索
apache-kafka - KAFKA 重启问题 : Unable to restart kafka without deleting/tmp/kafka-logs
每当我尝试重新启动 kafka 时，它都会出现以下错误。一旦我删除/tmp/kafka-logs 它就会得到解决，但它也会删除我的主题。有办法解决吗？ ERROR Error while
apache-kafka - 从 Kafka 客户端增加 Kafka 主题中的分区数
我是 Apache Kafka 的新用户，我仍在了解内部结构。在我的用例中，我需要从 Kafka Producer 客户端动态增加主题的分区数。我发现了其他类似的 questions关于增加分区大
apache-kafka - 如何将主题从 kafka 集群复制到另一个 kafka 集群？
正如 Kafka 文档所示，一种方法是通过 kafka.tools.MirrorMaker 来实现这一点。但是，我需要将一个主题(比如测试带 1 个分区)(其内容和元数据)从生产环境复制到没有连接
apache-kafka - Spring kafka 和 Kafka 集群
我已经在集群中配置了 3 个 kafka，我正在尝试与 spring-kafka 一起使用。但是在我杀死 kafka 领导者之后，我无法将其他消息发送到队列中。我将 spring.kafka.bo
apache-kafka - 是否可以将偏移量重置为 kafka 连接器中的 kafka 消费者组的主题？
我的 kafka sink 连接器从多个主题(配置了 10 个任务)读取，并处理来自所有主题的 300 条记录。根据每个记录中保存的信息，连接器可以执行某些操作。以下是触发器记录中键值对的示例: "
apache-kafka - Kafka Streams 如何获取 kafka header
我有以下 kafka 流代码 public class KafkaStreamHandler implements Processor{ private ProcessorConte
apache-kafka - kafka 连接失败时的 kafka-streams 警报
当 kafka-streams 应用程序正在运行并且 Kafka 突然关闭时，应用程序进入“等待”模式，发送警告日志的消费者和生产者线程无法连接，当 Kafka 回来时，一切都应该(理论上)去恢复正常

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

amazon-web-services - 适用于Kafka的Amazon Managed Streaming-MSK功能和性能