gpt4 book ai didi

java - Spark (Kafka) 流式内存问题

转载 作者:塔克拉玛干 更新时间:2023-11-02 08:32:59 24 4
gpt4 key购买 nike

我正在测试我的第一个 Spark Streaming 管道,它处理来自 Kafka 的消息。但是,经过几次测试运行后,我收到以下错误消息Java 运行时环境内存不足,无法继续。

我的测试数据非常小,因此这不应该发生。查看过程后,我意识到以前提交的spark作业可能没有完全删除? enter image description here

我通常提交如下作业,我使用的是 Spark 2.2.1/usr/local/spark/bin/spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.2 ~/script/to/spark_streaming.py

然后使用 `Ctrl+C' 停止它

脚本的最后几行如下所示:

ssc.start()
ssc.awaitTermination()

更新

在我更改了提交 spark streaming 作业的方式后(如下命令),我仍然遇到同样的问题,即在杀死作业后,内存不会被释放。我只启动了 Hadoop以及用于这 4 个 EC2 节点的 Spark

/bin/spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.2 --py-files ~/config.py --master spark://<master_IP>:7077 --deploy-mode client  ~/spark_kafka.py

最佳答案

当您按下 Ctrl-C 时,只有提交程序进程被中断,作业本身继续运行。最终您的系统内存不足,因此无法启动新的 JVM。

此外,即使您重启集群,所有之前运行的作业也将再次重启。

阅读how to stop a running Spark application properly .

关于java - Spark (Kafka) 流式内存问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50162561/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com