apache-spark - Spark 流断言失败 : Failed to get records for spark-executor-a-group a-topic 7 244723248 after polling for 4096-6ren

apache-spark - Spark 流断言失败 : Failed to get records for spark-executor-a-group a-topic 7 244723248 after polling for 4096

转载作者：行者123 更新时间：2023-12-04 15:19:13

26

4

Kafka DirectStream 的 Spark Streaming 问题:

spark streaming assertion failed: Failed to get records for spark-executor-a-group a-topic 7 244723248 after polling for 4096

尝试:

1) 调整增加 spark.streaming.kafka.consumer.poll.ms

-- 从 512 到 4096，失败较少，但即使 10 秒失败仍然存在

2) 将执行器内存从 1G 调整为 2G

- 部分工作，更不用说失败了

3) https://issues.apache.org/jira/browse/SPARK-19275

-- 当流媒体持续时间都小于 8 秒时仍然失败(“session.timeout.ms”->“30000”)

4) 尝试 Spark 2.1

——问题依旧

使用 Scala 2.11.8，Kafka 版本:0.10.0.0，Spark 版本:2.0.2

Spark 配置

.config("spark.cores.max", "4")
.config("spark.default.parallelism", "2")
.config("spark.streaming.backpressure.enabled", "true")
.config("spark.streaming.receiver.maxRate", "1024")
.config("spark.streaming.kafka.maxRatePerPartition", "256")
.config("spark.streaming.kafka.consumer.poll.ms", "4096")
.config("spark.streaming.concurrentJobs", "2")

使用 spark-streaming-kafka-0-10-assembly_2.11-2.1.0.jar

错误堆栈:

at scala.Predef$.assert(Predef.scala:170)
at org.apache.spark.streaming.kafka010.CachedKafkaConsumer.get(CachedKafkaConsumer.scala:74)
at org.apache.spark.streaming.kafka010.KafkaRDD$KafkaRDDIterator.next(KafkaRDD.scala:228)
at org.apache.spark.streaming.kafka010.KafkaRDD$KafkaRDDIterator.next(KafkaRDD.scala:194)
at scala.collection.Iterator$class.foreach(Iterator.scala:893)
at org.apache.spark.streaming.kafka010.KafkaRDD$KafkaRDDIterator.foreach(KafkaRDD.scala:194)
...
at com.datastax.spark.connector.cql.CassandraConnector$$anonfun$withSessionDo$1.apply(CassandraConnector.scala:109)
at com.datastax.spark.connector.cql.CassandraConnector$$anonfun$withSessionDo$1.apply(CassandraConnector.scala:108)
at com.datastax.spark.connector.cql.CassandraConnector.closeResourceAfterUse(CassandraConnector.scala:142)
at com.datastax.spark.connector.cql.CassandraConnector.withSessionDo(CassandraConnector.scala:108)
...
at org.apache.spark.rdd.RDD$$anonfun$foreachPartition$1$$anonfun$apply$29.apply(RDD.scala:925)
at org.apache.spark.rdd.RDD$$anonfun$foreachPartition$1$$anonfun$apply$29.apply(RDD.scala:925)
at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1944)
at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1944)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
at org.apache.spark.scheduler.Task.run(Task.scala:99)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:282)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)

由于此故障，从 Kafka 丢失了 1% 以上的块数据:( 请帮忙!

最佳答案

当前解决方案:

增加 num.network.threads在 kafka/config/server.properties 中，默认为 3

增加 spark.streaming.kafka.consumer.poll.ms值~!一个大...
没有配置 spark.streaming.kafka.consumer.poll.ms，它使用的是 spark.network.timeout，它是 120 秒——导致一些问题

可选步骤:减少“max.poll.records”，默认为 500

可选步骤:使用 Future{} 并行运行时间成本任务

关于apache-spark - Spark 流断言失败 : Failed to get records for spark-executor-a-group a-topic 7 244723248 after polling for 4096，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42264669/

26

4

0

文章推荐： go - 向构造函数添加可变参数时如何在 Go 中进行版本控制？

文章推荐：分布式数据库事务中的RabbitMQ和交付保证

安卓 : Call Recording error if existing recorder app engage in recording
recorder = new MediaRecorder(); recorder.setAudioSource(MediaRecorder.AudioSource.VOICE_CALL
php - 代码点火器 : update records if records exists there or then insert new records
在我的表中，我有四列。 r_id id(用户 ID) v_id(公司 ID) 率我所做的就是从用户那里对公司(v_id)进行评分。假设，如果用户一对第一家公司(v_id)进行评分，那么当同一用户对
php - 拉拉维尔 : After delete record from database the new record is in the place of the deleted record
我的表中有 10 条记录，当我删除记录 5 并创建新记录时，新记录将取代已删除的记录，如下所示: 在删除之前记录其ID: 1个2个3个4个5个6个78个910 删除记录 5 并插入新记录后，id 为
postgresql - Sequelize : Find Records Based on Associated BelongsToMany Record-- But Still Return All Associated Records?
我有两个 belongsToMany 模型: const apptsModel = db.define('Appts', { id: {type: Sequelize.INTEGER, pri
ios - 在 iOS Playground 上使用 AVFoundation 的 Recorder，但 recorder.record() 总是返回 false
有没有办法在 iOS Playground 上使用录音机？运行时，它会询问我是否允许使用我的麦克风，并且录音机实例似乎可以正常工作，但是，我无法使用 record() 函数。我当前的环境是 iOS 1
Mysql查询Group by Last record and first record
我有 2 个表，状态表与配置文件表相连。 Profile 表存储唯一的 tagId，status 表存储多个重复的 tagid 条目。我想按tagid的最后一条记录和第一条记录分组显示。表:简介注意
javascript - Typescript 遍历 Record 类型并返回更新的 Record
我是的新手 typescript 我需要遍历 Record键入对值进行一些更新并返回 Record . 这是定义类型的方式: type Parent = Readonly>; type Childr
extjs - record.data 和 record.raw 的区别
我发现在开发 extjs 应用程序(拉力赛应用程序)时，有时我需要从记录中获取的数据在 record.raw 中而不是在 record.data 中。两者有什么区别，为什么会这样？编辑 - 添加示例
SQL select where matching record exists and no matching record
我需要交叉引用 2 个表。在 tb1 中是 booking_ref，投资者在 tb2 中是 booking_ref、investor、cost 麻烦的是如果没有成本，表2中没有记录所以我有以下查
apache-kafka - 卡夫卡流 : one record to multiple records
鉴于:我在 Kafka 中有两个主题，假设主题 A 和主题 B。Kafka Stream 从主题 A 读取记录，处理它并生成与消费记录相对应的多条记录(假设记录 A 和记录 B)。现在，问题是如何使用
Java : Compare previous record with current record in arraylist
我有一个包含 6 个元素的排序数组列表。前 5 个元素有一些值，第 6 个元素为空。我想循环遍历这个ArrayList，并将第一个记录的前5个元素与下一个记录中的相同元素进行比较。如果任一元素不同，
c# - Entity Framework : delete record with its sub-records
我有一个包含 3 列的表:ID、Name、ParentID。如何删除特定记录及其所有子记录(n 层深)？使用 Entity Framework 3.5。最佳答案表是自引用的是应用程序逻辑，它没
ios - 使用 Magical Record 获取记录时如何获取 "Newest Record"
获取记录时如何获取最新的记录？例如: 第一次迭代我用对象名称 Country 保存“Singapore”，第二次迭代我用对象名称 Country,second 保存“USA” 现在当我获取它的时候
ios - 无法在强制转换中将类型 '[Record]' 的值转换为类型 'Record'
我将使用 C# 和 Xamarin 制作的 iOS 应用重写到 Swift，原因很明显是 Xamarin 的定价和低文档。正在关注this tutorial因为在我的 UITableView 上包含一
linux-kernel - "perf record"或 "perf-record"可以采样子进程吗？
假设我有一个线束二进制文件，它可以根据命令行选项产生不同的基准。我对采样这些基准非常感兴趣。我有3个选择: 更改线束二进制文件以生成一个“性能记录”子进程，该子进程运行基准测试并进行采样只需执行“
mysql - SQL : Select a record by name field and all records having the same address
什么 SQL 查询会按名称查找记录，以及具有相同地址但可能不同名称的所有记录？我有一个选民登记数据库，当我查找个人时，我还想看看还有谁在该地址登记。我的数据库称为 voters，其中的表称为 ex
testing - tsung-recorder 在 "tsung-recorder stop"后仍在运行
我在我的 mac 上设置了一个 Tsung 配置，并尝试在我正在开发的网站上记录一个测试。我跑了:“tsung-recorder start”并在 firefox localhost:8090 中为
java - 如何在 JOOQ 中将 Record 转换为 Table Record？
我需要将 JOOQ 的记录结果集转换为表记录列表。有什么方法可以做到吗？最佳答案是的，您可以使用 Result.into(Table) .一个例子: Result result = create.
Swift/CloudKit : After record changed, 上传触发器 "Service Record Changed"
我正在尝试将 CKReference 添加到云工具包中的记录，但尝试不断触发“服务记录已更改”。从我的 println 显示的控制台消息(下面的控制台消息和代码), 我正在上传带有 0 个引用的记录，
orm - Laravel 4 和 Eloquent : retrieving all records and all related records
我有两个类:Artist 和 Instrument。每个 Artist 可以演奏一个或多个 Instrument。每个 Instrument 可以分配给一个或多个 Artist。所以，我设置了以下类:

首页

博学

6Ren·AI

商城

apache-spark - Spark 流断言失败 : Failed to get records for spark-executor-a-group a-topic 7 244723248 after polling for 4096