apache-spark - Spark 作业卡在从 Oracle DB 导入的最后阶段

apache-spark - Spark 作业卡在从 Oracle DB 导入的最后阶段 - 数据不倾斜

转载作者：行者123 更新时间：2023-12-04 05:10:51

26

4

我正在尝试使用 Apache Spark 2.3.1 从 Oracle DB 中提取数据并将其放入 AWS S3。这项工作一直运行良好，直到最后阶段并卡在那里。我不认为数据有偏差，因为每个阶段都有相同数量的记录。下面是我在 spark 中使用的查询。

url = "jdbc:oracle:thin:@IP:PORT/SID"
user = "user"
password = "password"
driver = "oracle.jdbc.driver.OracleDriver"
table = "table"
fetchSize = 1000
partitionColumn = "num_rows"

date1 = (datetime.today() - td(days=42)).date().strftime('%d-%b-%Y')
date2 = (datetime.today() - td(days=2)).date().strftime('%d-%b-%Y')

query = "(select min(rownum) as min, max(rownum) as max from "+table+" where date>='"+str(date1)+"' and date<='"+str(date2)+"') tmp1"
print(query)

DF = spark.read.format("jdbc").option("url", url) \
                              .option("dbtable", query) \
                              .option("user", user) \
                              .option("password", password) \
                              .option("driver", driver) \
                              .load()

lower_bound, upper_bound = DF.first()
lower_bound = int(lower_bound)
upper_bound = int(upper_bound)
numPartitions = int(upper_bound/fetchSize)+1
print(lower_bound,upper_bound)
print(numPartitions)

query = "(select t1.*, ROWNUM as num_rows from (select * from " + table + " where date>='"+str(date1)+"' and date<='"+str(date2)+"') t1) tmp2"
print(query)

DF = spark.read.format("jdbc").option("url", url) \
                              .option("dbtable", query) \
                              .option("user", user) \
                              .option("password", password) \
                              .option("fetchSize",fetchSize) \
                              .option("numPartitions", numPartitions) \
                              .option("partitionColumn", partitionColumn) \
                              .option("lowerBound", lower_bound) \
                              .option("upperBound", upper_bound) \
                              .option("driver", driver) \
                              .load()

path = "s3://my_path"
DF.write.mode("overwrite").parquet(path)

该代码主要提取最近 42 天的数据并将其放入 S3 存储桶中。以下是写入语句之前的输出。代码运行于'10-Sep-2018'

(select min(rownum) as min, max(rownum) as max from table where date>='30-Jul-2018' and date<='08-Sep-2018') tmp1
(1, 2195427)
2196
(select t1.*, ROWNUM as num_rows from (select * from table where date>='30-Jul-2018' and date<='08-Sep-2018') t1) tmp2

如你所见，

总记录数 = 2195427
每个分区的记录数 = 1000
分区数 = 2196

因此该作业有2196 个阶段，每个阶段拉取 1000 条记录。作业卡在 2191/2196，还有 5 个阶段要走。

硬件规范:

我正在使用 r4.xlarge 机器。我的集群是 1 Master，2 Slaves of r4.xlarge。以下是我的驱动程序和执行程序规范。

spark.driver.cores  8
spark.driver.memory 24g
spark.driver.memoryOverhead 3072M
spark.executor.cores    1
spark.executor.memory   3g
spark.executor.memoryOverhead   512M
spark.yarn.am.cores 1
spark.yarn.am.memory    3g
spark.yarn.am.memoryOverhead    512M

Spark Executor UI

第 1 到 2191 阶段在 1.3 小时内完成，但其余 5 个阶段卡住了三个多小时。

请在此处找到日志: https://github.com/rinazbelhaj/stackoverflow/blob/master/Spark_Log_10_Sept_2018

我无法找出此问题的根本原因。

最佳答案

我猜你有两种可能的情况:

1 - 与 Oracle DB 相关的问题

我正在处理一个非常相似的问题。但任务并没有被卡住，而是被 SQL Server 中断了。中断是由 connection reset 引起的，它是随机发生的。

为了避免这种情况，我在 JDBC 连接字符串上设置了一些参数。错误已停止，但任务永远不会结束。

原创:

jdbc:sqlserver://host:port;database=db_name;

修改:

db_url=jdbc:sqlserver://host:port;
database=db_name;
applicationIntent=readonly;
applicationName=app-name;
columnEncryptionSetting=Disabled;
disableStatementPooling=true;
encrypt=false;
integratedSecurity=false;
lastUpdateCount=true;
lockTimeout=-1;
loginTimeout=15;
multiSubnetFailover=false;
packetSize=8000;
queryTimeout=-1;
responseBuffering=adaptive;
selectMethod=direct;
sendStringParametersAsUnicode=true;
serverNameAsACE=false;
TransparentNetworkIPResolution=true;
trustServerCertificate=false;
trustStoreType=JKS;
sendTimeAsDatetime=true;
xopenStates=false;
authenticationScheme=nativeAuthentication;
authentication=NotSpecified;
socketTimeout=0;
fips=false;
enablePrepareOnFirstPreparedStatementCall=false;
serverPreparedStatementDiscardThreshold=10;
statementPoolingCacheSize=0;
jaasConfigurationName=SQLJDBCDriver;
sslProtocol=TLS;
cancelQueryTimeout=-1;
useBulkCopyForBatchInsert=false;

因此，我决定删除 JDBC 连接字符串上添加的参数，并开始在集群创建时传递 spark 配置。我将最大重试次数从 4(默认)更改为 50。

spark.task.maxFailures=50

因此，连接问题仍然存在，但至少任务成功结束。

我建议您设置任何连接超时，因为它可能是无限的 - 通常设置为 0 或 -1。检查 Oracle 的驱动程序文档并尝试更改默认行为。

2 - 与 S3 相关的问题

我们还遇到了与 S3 上的写入操作相关的问题。我找不到确切的错误消息，但它类似于 An error occurred while calling o70.parquet。

当我们解决上述问题时，写入速度太慢。

我们团队的一个人建议使用 HDFS 从数据库写入数据，然后将操作从 HDFS 复制到 S3。性能大幅提升。

将 HDFS 设置为目标(可能需要增加主节点的磁盘大小)

destination = 'hdfs:///path-to-hdfs'

DF.write                \
  .mode("overwrite")    \
  .parquet(destination)

执行从 HDFS 到 S3 的复制

引用:https://docs.aws.amazon.com/emr/latest/ReleaseGuide/UsingEMR_s3distcp.html

希望对你有帮助!我会报告我的任务的任何改进；)

关于apache-spark - Spark 作业卡在从 Oracle DB 导入的最后阶段 - 数据不倾斜，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52255976/

26

4

0

文章推荐： perl - 如何在 Perl 中实现延迟模块加载？

文章推荐：用于驾驶模拟的 3D 引擎

C/我如何从这里到达第 2 阶段？它只是循环并直接进入第 3 阶段
这是贪吃蛇游戏的部分代码。我想做的是制作关卡(大约3个)，如果分数达到一定的分数(100或200)，关卡就会改变。在这段代码中，我尝试让分数达到 100 时进入第 2 阶段。但正如我编码的那样，它只
javascript - 阶段 - 我的图像无法加载
我是移相器新手。我开始看 youtube 系列，我首先有问题。我的背景图片无法加载。我有这个js代码 /* global Phaser */ var game = new Phaser.Game(12
javafx - 如何最小化靠近系统托盘的 javafx 阶段？
我有一个包含 2 个阶段的应用程序，我不希望用户关闭第二个阶段，只需将其图标化即可。目前我正在使用 oncloseRequest 处理程序来最小化窗口 - secondaryStage.setOnC
maintenance - 将网站更新从开发/阶段/测试环境推向生产的最佳实践是什么？
现在，我有一台运行服务器的基本LAMP配置。生产服务器是slicehost。但是我想知道将代码/数据库实例推送到阶段dev> stage> production的最佳方法是什么。它与您创建阶段的方式有
java - 阶段 : Not resizing to Scene
我在舞台上有一个场景。场景的宽度为 337.0 像素。但是，当我将它添加到舞台时，舞台的大小为 337.6 像素，由于 0.6 像素的差异，在屏幕的右边缘留下了一个白色间隙。我尝试使用 stage.
javafx-2 - 如何拖动JavaFX的未修饰窗口(阶段)
我有这个未修饰的窗口： public static void initStartPage(final Stage primaryStage) { final Stage startPa
maven - 执行特定的 Maven 阶段
有什么方法可以在 Maven 构建中执行特定阶段。例如，如果我只想运行那些在预集成阶段执行的插件，Maven 是否提供了一种方法来做到这一点？ e.g. mvn pre-integration-pha
jenkins - Jenkins 管道中的条件步骤/阶段
仅在构建特定分支时如何运行构建步骤/阶段？例如，仅当分支名为 deployment 时才运行部署步骤，其他所有内容保持不变。最佳答案在声明性管道语法中执行相同的操作，下面是一些示例: stage
hadoop - 配置单元查询无法启动 map 阶段
我有一个简单的查询，试图在Hive 0.14中运行: select sum(tb.field1), sum(tb.field2), tb.month from dbwork.mytable tb gr
Git 相当于 Mercurial 阶段？
在 Mercurial 中，我经常使用 secret 变更集来跟踪我对尚未准备好推送的内容的工作。然后，如果我需要对某些文件进行紧急更改，我可以更新到公共(public)修订版，进行更改并推送它，而不
Heroku + 插件提供商 Alpha 阶段
我一直在为 Heroku 的新附加组件工作，目前它是 alpha 阶段。因此，目前，我无法在我创建的应用程序上添加该附加组件，因为没有按钮可供我添加它。有人可以向我指出一些可以帮助我解决问题的资源吗？
java - 来自另一个线程的最小化 javafx 阶段
我有 2 个线程正在运行，一个正在监听 soket 等待命令，另一个启动 javafx 应用程序 public class GraphicInterface extends Application i
java - 如何关闭并图标化 JavaFx 阶段
在我的 Java Fx 应用程序中，我创建了两个阶段。第一阶段是主 Controller 类 HomeController 中的默认阶段。第二个 AddNewEmailController 是通过调用
java - 通过单个类管理不同的 JavaFX 阶段
我正在编写一个简单的 JavaFX 应用程序，它具有三个阶段:登录、注册 (Anmeldung) 和欢迎 (Anwendung)。抱歉采用德语命名! 我已经在 App 类中创建了每个舞台及其场景，在
jquery - 如何将表单重置为上次保存(通过ajax)阶段
问题是我正在使用 jQuery("form")[0].reset(); 在需要时重置表单。此方法正在将形式重置到初始阶段。这里初始阶段的意思是“表单第一次加载到页面时带有一些值的阶段”。但我需要的是
java - 强制执行 Maven 阶段
我有一个带有 pre-integration-test 和 post-integration-test 阶段的 Maven POM，如下所示。 start-server pre-in
ios - 调试 xcode 阶段？
我遇到一个错误，我已经为网络制作了一个 UIPageController，但我似乎无法找到它的问题，只有一个错误，请帮忙。代码如下 - 更多代码点播。 @interface ContentViewCo
javascript - 在不损失质量的情况下缩小 Konvajs 阶段
考虑在其中放置一些文本的大型 (2000x1000) 舞台。舞台缩小到 1000x500，使文本不可读。然后我们尝试通过放大来放大文本。预期:文本应该在某个时候再次变得可读。实际:无论我们放大多少
html - 如何在网页中居中 KineticJS 阶段
试图在网页中居中 KineticJS 阶段。尝试过: 但它集中在舞台的左侧，而不是舞台的中间。我错过了什么？最佳答案 margin:auto 可以对齐这个div中心关于htm
java - 无法处理部署的 POST_MODULE 阶段
我正在 jboss 中部署一个简单的 Web 应用程序，其中包含一个 servlet、一个 jsp 文件和一个 easy EJB。这是 servlet 的代码: package webejb; imp

首页

博学

6Ren·AI

商城

apache-spark - Spark 作业卡在从 Oracle DB 导入的最后阶段 - 数据不倾斜