apache-spark - 长时间正常运行后，Spark 有状态流作业在检查点到 S3 时挂起-6ren

apache-spark - 长时间正常运行后，Spark 有状态流作业在检查点到 S3 时挂起

转载作者：行者123 更新时间：2023-12-04 04:13:49

25

4

我最近一直在对我们的 Spark Streaming 应用程序进行压力测试。压力测试每秒接收大约 20,000 条消息，消息大小在 200 字节 - 1K 之间变化到 Kafka，其中 Spark Streaming 每 4 秒读取一次批次。

我们的 Spark 集群运行在带有独立集群管理器的 1.6.1 版上，我们的代码使用 Scala 2.10.6。

经过大约 15-20 小时的运行，其中一个启动检查点(以 40 秒间隔完成)的执行程序被以下堆栈跟踪卡住并且永远不会完成:

java.net.SocketInputStream.socketRead0(Native Method) java.net.SocketInputStream.socketRead(SocketInputStream.java:116) java.net.SocketInputStream.read(SocketInputStream.java:170) java.net.SocketInputStream.read(SocketInputStream.java:141) sun.security.ssl.InputRecord.readFully(InputRecord.java:465) sun.security.ssl.InputRecord.readV3Record(InputRecord.java:593) sun.security.ssl.InputRecord.read(InputRecord.java:532) sun.security.ssl.SSLSocketImpl.readRecord(SSLSocketImpl.java:973) sun.security.ssl.SSLSocketImpl.performInitialHandshake(SSLSocketImpl.java:1375) sun.security.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1403) sun.security.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1387) org.apache.http.conn.ssl.SSLSocketFactory.connectSocket(SSLSocketFactory.java:533) org.apache.http.conn.ssl.SSLSocketFactory.connectSocket(SSLSocketFactory.java:401) org.apache.http.impl.conn.DefaultClientConnectionOperator.openConnection(DefaultClientConnectionOperator.java:177) org.apache.http.impl.conn.AbstractPoolEntry.open(AbstractPoolEntry.java:144) org.apache.http.impl.conn.AbstractPooledConnAdapter.open(AbstractPooledConnAdapter.java:131) org.apache.http.impl.client.DefaultRequestDirector.tryConnect(DefaultRequestDirector.java:610) org.apache.http.impl.client.DefaultRequestDirector.execute(DefaultRequestDirector.java:445) org.apache.http.impl.client.AbstractHttpClient.doExecute(AbstractHttpClient.java:863) org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:82) org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:57) org.jets3t.service.impl.rest.httpclient.RestStorageService.performRequest(RestStorageService.java:326) org.jets3t.service.impl.rest.httpclient.RestStorageService.performRequest(RestStorageService.java:277) org.jets3t.service.impl.rest.httpclient.RestStorageService.performRestHead(RestStorageService.java:1038) org.jets3t.service.impl.rest.httpclient.RestStorageService.getObjectImpl(RestStorageService.java:2250) org.jets3t.service.impl.rest.httpclient.RestStorageService.getObjectDetailsImpl(RestStorageService.java:2179) org.jets3t.service.StorageService.getObjectDetails(StorageService.java:1120) org.jets3t.service.StorageService.getObjectDetails(StorageService.java:575) org.apache.hadoop.fs.s3native.Jets3tNativeFileSystemStore.retrieveMetadata(Jets3tNativeFileSystemStore.java:174) sun.reflect.GeneratedMethodAccessor32.invoke(Unknown Source) sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) java.lang.reflect.Method.invoke(Method.java:497) org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:187) org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:102) org.apache.hadoop.fs.s3native.$Proxy18.retrieveMetadata(Unknown Source) org.apache.hadoop.fs.s3native.NativeS3FileSystem.getFileStatus(NativeS3FileSystem.java:472) org.apache.hadoop.fs.FileSystem.exists(FileSystem.java:1424) org.apache.spark.rdd.ReliableCheckpointRDD$.writePartitionToCheckpointFile(ReliableCheckpointRDD.scala:168) org.apache.spark.rdd.ReliableCheckpointRDD$$anonfun$writeRDDToCheckpointDirectory$1.apply(ReliableCheckpointRDD.scala:136) org.apache.spark.rdd.ReliableCheckpointRDD$$anonfun$writeRDDToCheckpointDirectory$1.apply(ReliableCheckpointRDD.scala:136) org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66) org.apache.spark.scheduler.Task.run(Task.scala:89) org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214) java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) java.lang.Thread.run(Thread.java:745)

当被卡住时，spark 驱动程序拒绝继续处理传入的批次，并创建大量的排队批次积压，直到释放“卡住”的任务才能处理。

此外，查看 streaming-job-executor-0 下的驱动程序线程转储清楚地表明它正在等待这个任务完成:

java.lang.Object.wait(Native Method) java.lang.Object.wait(Object.java:502) org.apache.spark.scheduler.JobWaiter.awaitResult(JobWaiter.scala:73) org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:612) org.apache.spark.SparkContext.runJob(SparkContext.scala:1832) org.apache.spark.SparkContext.runJob(SparkContext.scala:1845) org.apache.spark.SparkContext.runJob(SparkContext.scala:1922) org.apache.spark.rdd.ReliableCheckpointRDD$.writeRDDToCheckpointDirectory(ReliableCheckpointRDD.scala:135) org.apache.spark.rdd.ReliableRDDCheckpointData.doCheckpoint(ReliableRDDCheckpointData.scala:58) org.apache.spark.rdd.RDDCheckpointData.checkpoint(RDDCheckpointData.scala:74) org.apache.spark.rdd.RDD$$anonfun$doCheckpoint$1.apply$mcV$sp(RDD.scala:1682) org.apache.spark.rdd.RDD$$anonfun$doCheckpoint$1.apply(RDD.scala:1679) org.apache.spark.rdd.RDD$$anonfun$doCheckpoint$1.apply(RDD.scala:1679) org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:150) org.apache.spark.rdd.RDD.doCheckpoint(RDD.scala:1678) org.apache.spark.rdd.RDD$$anonfun$doCheckpoint$1$$anonfun$apply$mcV$sp$1.apply(RDD.scala:1684) org.apache.spark.rdd.RDD$$anonfun$doCheckpoint$1$$anonfun$apply$mcV$sp$1.apply(RDD.scala:1684) scala.collection.immutable.List.foreach(List.scala:318)

有没有人遇到过这样的问题？

最佳答案

套接字挂起是由于 HttpClient 中的错误引起的org.jets3t 使用的库其中 SSL 握手不使用指定的超时。您可以找到问题详细信息 here .

此错误在 v4.5.1 以下的 HttpClient 版本中重现，并已修复。不幸的是，Spark 1.6.x 使用 v4.3.2，它没有提供的修复程序。

到目前为止，我想到了三种可能的解决方法:

通过 spark.speculation 使用 Spark 的推测机制配置设置。这有助于解决挂起的边缘情况，因为它很少在负载下重现。请注意，这可能会在流式作业开始时导致一些误报，其中 spark 对运行中值任务的时间没有很好的印象，但这绝对不会导致明显的滞后。

文档说:

If set to "true", performs speculative execution of tasks. This means if one or more tasks are running slowly in a stage, they will be re-launched.

您可以通过向 spark-submit 提供标志来打开它:

spark-submit  \
--conf "spark.speculation=true" \
--conf "spark.speculation.multiplier=5" \

有关您可以通过的不同设置的更多信息，请参阅 Spark Configuration页

手动将 HttpClient v4.5.1 或更高版本传递到 Sparks 类路径，因此它可以在它的 uber JAR 中加载这个 JAR 之前加载它。这可能有点困难，因为使用 Spark 的类加载过程有点麻烦。这意味着您可以执行以下操作:

CP=''; for f in /path/to/httpcomponents-client-4.5.2/lib/*.jar; do CP=$CP$f:; done
SPARK_CLASSPATH="$CP" sbin/start-master.sh   # on your master machine
SPARK_CLASSPATH="$CP" sbin/start-slave.sh 'spark://master_name:7077'

或者干脆将 JAR 的特定版本更新为 SPARK_CLASSPATH在 spark-env.sh .

更新到 Spark 2.0.0 . Spark 新版本使用 HttpClient v4.5.2 解决了这个问题。

关于apache-spark - 长时间正常运行后，Spark 有状态流作业在检查点到 S3 时挂起，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38606653/

25

4

0

文章推荐： ruby-on-rails - Rails 4 迁移:Mysql2::Error:列 'xxxx' 的数据太长

文章推荐： git - Git 如何解析日期字符串？

文章推荐： python - 如何让 Selenium 与 Scrapy 并行运行？

java - 流<流> : flatMap vs. 减少
这个问题在这里已经有了答案: Why filter() after flatMap() is "not completely" lazy in Java streams? (8 个答案) 关闭 6
instagram - 是否有像 Twitter 流 API 一样的 Instagram 流 API？
我正在创建一个应用程序来从 Instagram 收集数据。我正在寻找像 Twitter 流 API 这样的流 API，这样我就可以自动实时收集数据而无需发送请求。 Instagram 有类似的 API
java - 您的 InputStream 既不是 OLE2 流，也不是 OOXML 流
我正在使用 Apache Commons 在 Google App Engine 中上传一个 .docx 文件，如此链接中所述 File upload servlet .上传时，我还想使用 Apach
java - 使用 AWS Java DynamoDB 流 Kinesis 适配器处理 DynamoDB 流
我尝试使用 DynamoDB 流和 AWS 提供的 Java DynamoDB 流 Kinesis 适配器捕获 DynamoDB 表更改。我正在 Scala 应用程序中使用 AWS Java 开发工具
FFMPEG RTSP IP 流 (H.264) 转换为 RTSP 流 (MPEG-2)
我目前有一个采用 H.264 编码的 IP 摄像机流式视频 (RTSP)。我想使用 FFmpeg 将此 H.264 编码流转换为另一个 RTSP 流，但 MPEG-2 编码。我该怎么做？我应该使用哪
集群模式下的 Redis 流
Redis 流是否受益于集群模式？假设您有 10 个流，它们是分布在整个集群中还是都分布在同一节点上？我计划使用 Redis 流来实现真正的高吞吐量(200 万条消息/秒)，所以我担心这种规模的 Re
Java 流 - 在可空列表上进行流式处理的优雅方式
这件事困扰了我一段时间。所以我有一个 Product 类，它有一个 Image 列表(该列表可能为空)。我想做 product.getImages().stream().filter(...) 但
具有持久存储的 Redis 流
是否可以使用具有持久存储的 Redis 流还是流仅限于内存数据？我知道可以将 Redis 与核心数据结构的持久存储一起使用，但我已经能够理解是否也可以使用 Redis 中的流的持久存储。最佳答
elixir - 具有前瞻性的可枚举/流
我开始学习 Elixir 并遇到了一个我无法轻松解决的挑战。我正在尝试创建一个函数，该函数接受一个 Enumerable.t 并返回另一个 Enumerable.t ，其中包含下 n 个项目。它与
scala - readLines 流
我试图从 readLine 调用创建一个无限的字符串流: import java.io.{BufferedReader, InputStreamReader} val in = new Buffere
Java 8 流 : For Each
你能帮我使用 Java 8 流 API 编写以下代码吗？ SuperUser superUser = db.getSuperUser; for (final Client client : super
rust - 暗示AsyncRead为补品::流
我正在尝试服用补品routeguide tutorial，并将客户端变成rocket服务器。我只是接受响应并将gRPC转换为字符串。 service RouteGuide { rpc GetF
javascript - 流 - 类型可能与联合类型不兼容
流程代码可以是run here. 使用 flow，我有一个函数，它接受一个键值对对象并获取它的值 - 它获取的值应该是字符串、数字或 bool 值。 type ValueType = string
javascript - 流、对象字面量与联合不兼容
如果我有一个函数返回一个包含数据库信息的对象或一个空对象，如下所示: getThingFromDB: async function(id:string):Promise{ const from
facebook - 流。发布ogg
我正在尝试使用javascript api和FB.ui将ogg音频文件发布到流中，但是我不知道该怎么做。这是我给FB.ui的电话: FB.ui( { method: '
Accurev:无法删除工作区/流
我正在尝试删除工作区(或克隆它以使其看起来像父工作区，但我似乎两者都做不到)。但是，当我尝试时，我收到此消息:无法删除工作区 test_workspace，因为它有一个非空的默认组。据我所知，这意味
java - 流 'map'可以用于这样的处理吗？
可以使用 Stream|Map 来完成此操作，这样我就不需要将结果放入外部 HashMap 中，而是使用 .collect(Collectors.toMap(...)); 收集结果？ Map rep
Java 流 API
当我们从集合列表中获取 Stream 时，幕后到底发生了什么？我发现很多博客都说Stream不存储任何数据。如果这是真的，请考虑代码片段: List list = new ArrayList(); l
带列表的 Java 流
我对流及其工作方式不熟悉，我正在尝试获取列表中添加的特定对象的出现次数。我找到了一种使用Collections来做到这一点的方法。其过程如下: for (int i = 0; i p.conten
Java 流 - 映射列表到简化的映射列表
我希望将一个 map 列表转换为另一个分组的 map 列表。所以我有以下 map 列表 - List [{ "accId":"1", "accName":"TestAcc1", "accNumber

首页

博学

6Ren·AI

商城

apache-spark - 长时间正常运行后，Spark 有状态流作业在检查点到 S3 时挂起