gpt4 book ai didi

oracle - 在不增加核心的情况下增加 Spark Executor 的并行度

转载 作者:行者123 更新时间:2023-12-03 06:31:44 25 4
gpt4 key购买 nike

我正在运行一个带有 4 个执行器(每个 1 个核心)的 Spark-Kafka Streaming 作业。 kafka源主题有50个分区。

在流式java程序的foreachpartition中,我正在连接到oracle并做一些工作。 Apache DBCP2 用于连接池。

Spark-streaming 程序正在与数据库建立 4 个连接 - 每个执行程序可能有 1 个连接。但是,我的期望是 - 由于有 50 个分区,因此应该有 50 个线程正在运行并且存在 50 个数据库连接。

如何在不增加核心数量的情况下增加并行度。

最佳答案

你的期望是错误的。 Spark 术语中的一个核心是一个可用线程和一个当时可以处理的分区。

4 个“核心”-> 4 个线程-> 4 个分区同时处理。

关于oracle - 在不增加核心的情况下增加 Spark Executor 的并行度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41132157/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com