gpt4 book ai didi

apache-spark - 连续信息 JobScheduler :59 - Added jobs for time *** ms in my Spark Standalone Cluster

转载 作者:行者123 更新时间:2023-12-01 11:27:18 26 4
gpt4 key购买 nike

我们正在使用具有 8 个内核和 32GB Ram 的 Spark 独立集群,以及具有相同配置的 3 个节点集群。

有时流式批处理在不到 1 秒内完成。有时需要超过 10 秒,此时控制台中会出现以下日志。

2016-03-29 11:35:25,044  INFO TaskSchedulerImpl:59 - Removed TaskSet 18.0, whose tasks have all completed, from pool 
2016-03-29 11:35:25,044 INFO DAGScheduler:59 - Job 18 finished: foreachRDD at EventProcessor.java:87, took 1.128755 s
2016-03-29 11:35:31,471 INFO JobScheduler:59 - Added jobs for time 1459231530000 ms
2016-03-29 11:35:35,004 INFO JobScheduler:59 - Added jobs for time 1459231535000 ms
2016-03-29 11:35:40,004 INFO JobScheduler:59 - Added jobs for time 1459231540000 ms
2016-03-29 11:35:45,136 INFO JobScheduler:59 - Added jobs for time 1459231545000 ms
2016-03-29 11:35:50,011 INFO JobScheduler:59 - Added jobs for time 1459231550000 ms
2016-03-29 11:35:55,004 INFO JobScheduler:59 - Added jobs for time 1459231555000 ms
2016-03-29 11:36:00,014 INFO JobScheduler:59 - Added jobs for time 1459231560000 ms
2016-03-29 11:36:05,003 INFO JobScheduler:59 - Added jobs for time 1459231565000 ms
2016-03-29 11:36:10,087 INFO JobScheduler:59 - Added jobs for time 1459231570000 ms
2016-03-29 11:36:15,004 INFO JobScheduler:59 - Added jobs for time 1459231575000 ms
2016-03-29 11:36:20,004 INFO JobScheduler:59 - Added jobs for time 1459231580000 ms
2016-03-29 11:36:25,139 INFO JobScheduler:59 - Added jobs for time 1459231585000 ms

请问如何解决这个问题。

最佳答案

将 spark-submit master 从本地更改为本地[2]

spark-submit --master local[2] --class YOURPROGRAM YOUR.jar

或设置

new SparkConf().setAppName("SparkStreamingExample").setMaster("local[2]")

如果将数字更改为 2 后仍然遇到同样的问题,也许您应该将其更改为更大的数字。

引用: http://spark.apache.org/docs/latest/streaming-programming-guide.html

在本地运行 Spark Streaming 程序时,不要使用“local”或“local[1]”作为主 URL。这些中的任何一个都意味着只有一个线程将用于在本地运行任务。如果您正在使用基于接收器(例如套接字、Kafka、Flume 等)的输入 DStream,那么将使用单个线程来运行接收器,而不会留下任何线程来处理接收到的数据。因此,在本地运行时,始终使用“local[n]”作为主 URL,其中 n > 要运行的接收器的数量(有关如何设置主的信息,请参阅 Spark 属性)。

将逻辑扩展到集群上运行,分配给 Spark Streaming 应用程序的核心数必须大于接收器的数量。否则,系统将收到数据,但无法处理它们。

归功于 bit1129:http://bit1129.iteye.com/blog/2174751

关于apache-spark - 连续信息 JobScheduler :59 - Added jobs for time *** ms in my Spark Standalone Cluster,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36281665/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com