apache-spark - Spark 流、Kafka 和多个主题的性能不佳-6ren

apache-spark - Spark 流、Kafka 和多个主题的性能不佳

转载作者：行者123 更新时间：2023-12-03 17:35:10

Spark 2.1 + Kafka 0.10 + Spark 流。

批处理持续时间为 30 秒。

我有 13 个节点、2 个代理，并且每个主题/分区的每个执行程序使用 1 个核心。
LocationStrategy 是 PreferConsistent。
当消耗 1 个主题时，执行程序总是处理相同的主题/分区(测试到 24 个分区)没有问题。
当我添加另一个主题时，一些用于处理主题/分区的执行程序会从一批更改为另一批。

当执行程序再次处理相同的主题/分区时(例如 3 个批次之后，因此在前一个处理之后 1:30)，由于来自代理的请求超时(request.timeout.ms 参数)，我的 KafkaConsumer 断开连接，然后我对 Kafka 的新获取查询在 40 秒内被阻止(再次使用 request.timeout.ms 参数)。

2017-10-09 16:51:30.336 DEBUG    [Executor task launch worker for task 315]:org.apache.spark.internal.Logging$class - Seeking to topic2-7 136136613
2017-10-09 16:51:30.336 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.consumer.KafkaConsumer - Seeking to offset 136136613 for partition topic2-7
2017-10-09 16:51:30.337 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.NetworkClient - Disconnecting from node 1005 due to request timeout.
2017-10-09 16:51:30.337 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.consumer.internals.ConsumerNetworkClient$RequestFutureCompletionHandler - Cancelled FETCH request ClientRequest(expectResponse=true, callback=org.apache.kafka.clients.consumer.internals.ConsumerNetworkClient$RequestFutureCompletionHandler@30ea3352, request=RequestSend(header={api_key=1,api_version=2,correlation_id=25,client_id=consumer-1}, body={replica_id=-1,max_wait_time=500,min_bytes=1,topics=[{topic=topic2,partitions=[{partition=7,fetch_offset=136125064,max_bytes=1048576}]}]}), createdTimeMs=1507557031875, sendTimeMs=1507557031875) with correlation id 25 due to node 1005 being disconnected
2017-10-09 16:51:30.338 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.consumer.internals.Fetcher$1 - Fetch failed org.apache.kafka.common.errors.DisconnectException
2017-10-09 16:51:30.341 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.NetworkClient$DefaultMetadataUpdater - Initialize connection to node 1006 for sending metadata request
2017-10-09 16:51:30.341 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.NetworkClient - Initiating connection to node 1006 at broker001.domain.loc:9092.
2017-10-09 16:51:30.342 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.common.metrics.Metrics - Added sensor with name node-1006.bytes-sent
2017-10-09 16:51:30.342 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.common.metrics.Metrics - Added sensor with name node-1006.bytes-received
2017-10-09 16:51:30.342 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.common.metrics.Metrics - Added sensor with name node-1006.latency
2017-10-09 16:51:30.343 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.NetworkClient - Completed connection to node 1006
2017-10-09 16:51:30.343 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.consumer.internals.ConsumerNetworkClient$RequestFutureCompletionHandler - Cancelled FETCH request ClientRequest(expectResponse=true, callback=org.apache.kafka.clients.consumer.internals.ConsumerNetworkClient$RequestFutureCompletionHandler@7d9e82c8, request=RequestSend(header={api_key=1,api_version=2,correlation_id=26,client_id=consumer-1}, body={replica_id=-1,max_wait_time=500,min_bytes=1,topics=[{topic=topic2,partitions=[{partition=7,fetch_offset=136136613,max_bytes=1048576}]}]}), createdTimeMs=1507557090341, sendTimeMs=0) with correlation id 26 due to node 1005 being disconnected
2017-10-09 16:51:30.343 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.consumer.internals.Fetcher$1 - Fetch failed org.apache.kafka.common.errors.DisconnectException
2017-10-09 16:51:30.343 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.NetworkClient$DefaultMetadataUpdater - Sending metadata request {topics=[topic2]} to node 1006
2017-10-09 16:51:30.344 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.consumer.internals.ConsumerNetworkClient$RequestFutureCompletionHandler - Cancelled FETCH request ClientRequest(expectResponse=true, callback=org.apache.kafka.clients.consumer.internals.ConsumerNetworkClient$RequestFutureCompletionHandler@4512b012, request=RequestSend(header={api_key=1,api_version=2,correlation_id=27,client_id=consumer-1}, body={replica_id=-1,max_wait_time=500,min_bytes=1,topics=[{topic=topic2,partitions=[{partition=7,fetch_offset=136136613,max_bytes=1048576}]}]}), createdTimeMs=1507557090343, sendTimeMs=0) with correlation id 27 due to node 1005 being disconnected
2017-10-09 16:51:30.344 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.consumer.internals.Fetcher$1 - Fetch failed org.apache.kafka.common.errors.DisconnectException
2017-10-09 16:51:30.344 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.Metadata - Updated cluster metadata version 3 to Cluster(nodes = [broker002.domain.loc:9092 (id: 1005 rack: null), broker001.domain.loc:9092 (id: 1006 rack: null)], partitions = [Partition(topic = topic2, partition = 14, leader = 1006, replicas = [1005,1006,], isr = [1006,1005,], Partition(topic = topic2, partition = 13, leader = 1005, replicas = [1005,1006,], isr = [1005,1006,], Partition(topic = topic2, partition = 12, leader = 1006, replicas = [1005,1006,], isr = [1006,1005,], Partition(topic = topic2, partition = 11, leader = 1005, replicas = [1005,1006,], isr = [1005,1006,], Partition(topic = topic2, partition = 10, leader = 1006, replicas = [1005,1006,], isr = [1006,1005,], Partition(topic = topic2, partition = 9, leader = 1005, replicas = [1005,1006,], isr = [1005,1006,], Partition(topic = topic2, partition = 8, leader = 1006, replicas = [1005,1006,], isr = [1006,1005,], Partition(topic = topic2, partition = 7, leader = 1005, replicas = [1005,1006,], isr = [1005,1006,], Partition(topic = topic2, partition = 6, leader = 1006, replicas = [1005,1006,], isr = [1006,1005,], Partition(topic = topic2, partition = 5, leader = 1005, replicas = [1005,1006,], isr = [1005,1006,], Partition(topic = topic2, partition = 4, leader = 1006, replicas = [1005,1006,], isr = [1006,1005,], Partition(topic = topic2, partition = 3, leader = 1005, replicas = [1005,1006,], isr = [1005,1006,], Partition(topic = topic2, partition = 2, leader = 1006, replicas = [1005,1006,], isr = [1006,1005,], Partition(topic = topic2, partition = 1, leader = 1005, replicas = [1005,1006,], isr = [1005,1006,], Partition(topic = topic2, partition = 0, leader = 1006, replicas = [1005,1006,], isr = [1006,1005,]])
2017-10-09 16:51:30.345 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.consumer.internals.ConsumerNetworkClient$RequestFutureCompletionHandler - Cancelled FETCH request ClientRequest(expectResponse=true, callback=org.apache.kafka.clients.consumer.internals.ConsumerNetworkClient$RequestFutureCompletionHandler@4214186f, request=RequestSend(header={api_key=1,api_version=2,correlation_id=29,client_id=consumer-1}, body={replica_id=-1,max_wait_time=500,min_bytes=1,topics=[{topic=topic2,partitions=[{partition=7,fetch_offset=136136613,max_bytes=1048576}]}]}), createdTimeMs=1507557090344, sendTimeMs=0) with correlation id 29 due to node 1005 being disconnected
2017-10-09 16:51:30.345 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.consumer.internals.Fetcher$1 - Fetch failed org.apache.kafka.common.errors.DisconnectException
2017-10-09 16:51:42.942 DEBUG    [LeaseRenewer:hdfs_user@master001.domain.loc:8020]:org.apache.hadoop.hdfs.LeaseRenewer - Lease renewer daemon for [] with renew id 1 executed
2017-10-09 16:52:00.293 DEBUG    [IPC Client (1926664485) connection to master001.domain.loc/10.0.10.1:8020 from hdfs_user]:org.apache.hadoop.ipc.Client$Connection - IPC Client (1926664485) connection to master001.domain.loc/10.0.10.1:8020 from hdfs_user: closed
2017-10-09 16:52:00.293 DEBUG    [IPC Client (1926664485) connection to master001.domain.loc/10.0.10.1:8020 from hdfs_user]:org.apache.hadoop.ipc.Client$Connection - IPC Client (1926664485) connection to master001.domain.loc/10.0.10.1:8020 from hdfs_user: stopped, remaining connections 0
2017-10-09 16:52:10.388 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.consumer.internals.ConsumerNetworkClient$RequestFutureCompletionHandler - Cancelled FETCH request ClientRequest(expectResponse=true, callback=org.apache.kafka.clients.consumer.internals.ConsumerNetworkClient$RequestFutureCompletionHandler@4b954a27, request=RequestSend(header={api_key=1,api_version=2,correlation_id=30,client_id=consumer-1}, body={replica_id=-1,max_wait_time=500,min_bytes=1,topics=[{topic=topic2,partitions=[{partition=7,fetch_offset=136136613,max_bytes=1048576}]}]}), createdTimeMs=1507557090345, sendTimeMs=0) with correlation id 30 due to node 1005 being disconnected
2017-10-09 16:52:10.389 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.consumer.internals.Fetcher$1 - Fetch failed org.apache.kafka.common.errors.DisconnectException
2017-10-09 16:52:10.389 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.NetworkClient - Initiating connection to node 1005 at broker002.domain.loc:9092.
2017-10-09 16:52:10.390 DEBUG    [Executor task launch worker for task 315]:org.apache.kafka.clients.NetworkClient - Completed connection to node 1005
2017-10-09 16:52:10.397 DEBUG    [Executor task launch worker for task 315]:org.apache.spark.internal.Logging$class - Polled [topic2-7]  2603
2017-10-09 16:52:10.398 DEBUG    [Executor task launch worker for task 315]:org.apache.spark.internal.Logging$class - Getting local block broadcast_13
2017-10-09 16:52:10.398 DEBUG    [Executor task launch worker for task 315]:org.apache.spark.internal.Logging$class - Level for block broadcast_13 is StorageLevel(disk, memory, deserialized, 1 replicas)

我能做些什么来克服这种问题？
增加 request.timeout.ms 参数对我来说似乎不是一个好的解决方案。

我已经看到一个参数可以为 Kafka Consumers 禁用缓存，它可能可以解决这个问题，但它在 Spark 2.2 中可用，我不能去 Spark 2.2。

我现在唯一能看到的解决方案应该是回到单声道主题处理......

感谢您的帮助!

2017/10/18 : 关于这个问题的更新
执行程序处理主题/分区的切换是由于数据局部性问题。对于某些主题/分区，本地处理数据所需的执行程序(本地级别 PROCESS_LOCAL)不可用，因此安排了另一个执行程序来处理(本地级别 RACK_LOCAL)，并且此执行程序可以从批处理到另一个执行程序不同。

我的配置是每个执行程序 1 个核心。
我更改了我的配置以允许每个执行程序有 2 个内核，这没问题，所有任务都在本地处理。
如果要处理 3 个主题，我必须将我的配置更改为每个执行程序 3 个内核(主题不均匀，主题 1 有 15 个分区，主题 2 有 3 个分区，主题 3 有 6 个分区，例如有 3 个主题)。

1 个主题，24 个主题/分区，24 个执行程序，每个执行程序 1 个核心:好的
2 个主题，24 个主题/分区，12 个执行程序，每个执行程序 2 个内核:OK
3 个主题，24 个主题/分区，8 个执行程序，每个执行程序 3 个内核:OK
4 个主题，24 个主题/分区，6 个执行程序，每个执行程序 4 个内核:OK
6 个主题，24 个主题/分区，4 个执行程序，每个执行程序 6 个内核:KO

在 6 个主题中，我再次遇到了数据局部性问题。
我可以做些什么来根据主题数量扩展我的 Spark 流程？

最佳答案

对 RDD 执行重新分区 ，它将触发 shuffle 并确保每个执行程序都有几乎相同的本地数据(内存中)要处理。
对于您的 6 个主题示例，尝试使用 12 个执行程序、每个执行程序 2 个内核和 .repartition(48) .
在您对来自 Kafka 消费者的给定 RDD 进行任何转换/操作之前调用 repartition。

请注意，重新分区可能会影响性能。

关于apache-spark - Spark 流、Kafka 和多个主题的性能不佳，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46760261/

文章推荐： Webpack 无法编译简单应用程序

文章推荐： objective-c - beginSheet modalForwindow : nil position?

文章推荐： macos - Mac 版选择器

apache-kafka - Apache Beam over Apache Kafka流处理
在流处理方面，Apache Beam和Apache Kafka之间有什么区别？我也试图掌握技术和程序上的差异。请通过您的经验报告来帮助我理解。最佳答案 Beam是一种API，它以一种统一的方式使
apache-kafka - Apache 点燃与 Apache 卡夫卡
有点n00b的问题。如果我使用 Apache Ignite 进行消息传递和事件处理，是否还需要使用 Kafka？与 Ignite 相比，Kafka 基本上会给我哪些(如果有的话)额外功能？提前致
apache-drill - Apache 元模型与 Apache Drill
Apache MetaModel 是一个数据访问框架，它为发现、探索和查询不同类型的数据源提供了一个通用接口(interface)。 Apache Drill 是一种无架构的 SQL 查询引擎，它通过
apache - Apache 和 Apache Tomcat 的使用区别
Tomcat是一个广泛使用的java web服务器，而Apache也是一个web服务器，它们在实际项目使用中有什么不同？经过一些研究，我有了一个简单的想法，比如， Apache Tomcat Ja
apache - 何时使用 Apache 与 Apache+Tomcat？
既然简单地使用 Apache 就足以运行许多 Web 应用程序，那么人们何时以及为什么除了 Apache 之外还使用 Tomcat？最佳答案 Apache Tomcat是一个网络服务器和 Java
apache - 单个用户下的多个域的目录结构应该是什么？ ( Apache )
我在某个 VPS( friend 的带 cPanel 的 apache 服务器)上有一个帐户，我在那里有一个 public_html 目录。我们有大约 5-6 个网站: /home/myusernam
apache - 将模块加载到 Apache
我目前正在尝试将模块加载到 Apache，使用 cmake 构建。该模块称为 mod_mapcache。它已成功构建并正确安装在/usr/lib/apache2/modules directroy 中
apache - 网址中的问号(Apache)
我对 url 中的问号有疑问。例如:我有 url test.com/controller/action/part_1%3Fpart_2 (其中 %3F 是 url 编码的问号)，并使用此重写规则:R
apache - 使用 Let's encrypt with Apache 和 Apache Tomcat
在同一台机器上，Apache 在端口 80 上运行，Tomcat 在端口 8080 上运行。 Apache 包括 html;css;js;文件并调用 tomcat 服务。基本上 exampledom
apache - Apache 1 和 Apache 2 的区别
Apache 1 和 Apache 2 的分支有什么区别？使用一种或另一种的优点和缺点？似乎 Apache 2 的缺点之一是使用大量内存，但也许它处理请求的速度更快？最有趣的是 Apache 作
apache - 从uri模式确定变量(Apache)
实际上，我们正在使用 Apache 网络服务器来托管我们的 REST-API。脚本是用 Lua 编写的，并使用 mod-lua 映射。例如来自 httpd.conf 的实际片段: [...] Lu
apache - apache、ubuntu中的ServerAlias
我在 apache 上的 ubuntu 中有一个虚拟主机，这不是我的主要配置，我有另一个网页作为我的主要网页，所以我想使用虚拟主机在同一个 IP 上设置这个。 urologyexpert.mx 是我的
apache-camel - Apache Camel 与 Apache Nifi
我使用 Apache camel 已经很长时间了，发现它是满足各种系统集成相关业务需求的绝佳解决方案。但是几年前我遇到了 Apache Nifi 解决方案。经过一番谷歌搜索后，我发现虽然 Nifi 可
apache-flink - Apache Apex 与 Apache Flink
由于两者都是一次处理事件的流框架，这两种技术/流框架之间的核心架构差异是什么？此外，在哪些特定用例中，一个比另一个更合适？最佳答案正如您所提到的，两者都是实时内存计算的流式平台。但是当您仔细观察
apache - apache 文件中使用什么语言？
apache 文件(如 httpd.conf 和虚拟主机)中使用的语言名称是什么，例如 # Ensure that Apache listens on port 80 Listen 80 D
apache - apache 生命周期是怎样的？
作为我学习过程的一部分，我认为如果我扩展更多关于 apache 的知识会很好。我有几个问题，虽然我知道有些内容可能需要相当冗长的解释，但我希望您能提供一个概述，以便我知道去哪里寻找。 (最好引用 mo
apache-kafka - Apache Pulsar 与 Apache RocketMQ
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 4 个月前关闭。 Improve
apache - (Apache) 错误日志美化器
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
apache-kafka - Apache Camel 与 Apache Kafka
这个问题在这里已经有了答案: Difference Between Apache Kafka and Camel (Broker vs Integration) (4 个回答) 3年前关闭。据我所知
apache - Apache 中多个目录的规则相同吗？
我有 2 个使用相同规则的子域，如下所示: RewriteEngine On RewriteCond %{REQUEST_FILENAME} !-f RewriteCond

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

apache-spark - Spark 流、Kafka 和多个主题的性能不佳