gpt4 book ai didi

apache-spark - 为什么 spark 比 sqoop 慢,就 jdbc 而言?

转载 作者:行者123 更新时间:2023-12-03 09:26:37 24 4
gpt4 key购买 nike

据了解,在从 oracle db 迁移/加载到 hdfs/parquet 时,最好使用 SQOOP 而不是带有 JDBC 驱动程序的 SPARK。

Spark 在处理时应该快 100 倍,对吗?
那么 Spark 有什么问题呢?
为什么人们在从 oracle db 表加载数据时更喜欢 SQOOP?

请建议我在从 oracle 加载数据时需要做什么才能使 Spark 更快。

最佳答案

当 Spark 知道如何并行化查询时,它会很快。如果您只是执行单个查询,那么 Spark 不知道该怎么做。您可以通过使用参数 lowerBound 来提高速度, upperBound , numPartitions使用 spark.read.jdbc 读取数据时,但这实际上取决于您的表的设计。

您可以找到更多文档 here .

关于apache-spark - 为什么 spark 比 sqoop 慢,就 jdbc 而言?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56288481/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com