postgresql - SparkSQL PostgresQL 数据框分区-6ren

postgresql - SparkSQL PostgresQL 数据框分区

转载作者：行者123 更新时间：2023-11-29 11:32:10

27

4

我有一个连接到 Postgres 数据库的 SparkSQL 的非常简单的设置，我正在尝试从一个表中获取一个 DataFrame，该 DataFrame 具有 X 个分区(假设为 2)。代码如下:

Map<String, String> options = new HashMap<String, String>();
options.put("url", DB_URL);
options.put("driver", POSTGRES_DRIVER);
options.put("dbtable", "select ID, OTHER from TABLE limit 1000");
options.put("partitionColumn", "ID");
options.put("lowerBound", "100");
options.put("upperBound", "500");
options.put("numPartitions","2");
DataFrame housingDataFrame = sqlContext.read().format("jdbc").options(options).load();

由于某种原因，DataFrame 的一个分区几乎包含了所有行。

据我所知，lowerBound/upperBound 是用于微调的参数。在 SparkSQL 的文档(Spark 1.4.0 - spark-sql_2.11)中，它说它们用于定义步幅，而不是过滤/范围分区列。但这提出了几个问题:

步幅是 Spark 为每个执行程序(分区)查询数据库的频率(每次查询返回的元素数)？
如果不是，这些参数的目的是什么，它们取决于什么以及我如何以稳定的方式平衡我的 DataFrame 分区(不要求所有分区包含相同数量的元素，只是有一个平衡 -例如 2 个分区 100 个元素 55/45 、 60/40 甚至 65/35 都可以)

似乎无法找到这些问题的明确答案，并且想知道你们中的一些人是否可以为我清除这一点，因为现在在处理 X 百万行时影响我的集群性能并且所有繁重的工作都在进行给一个单独的执行者。

干杯，感谢您的宝贵时间。

最佳答案

本质上，下限和上限以及分区数用于计算每个并行任务的增量或拆分。

假设该表有分区列“year”，并且有从 2006 年到 2016 年的数据。

如果您将分区数定义为 10，下限为 2006 年，上限为 2016 年，您将让每个任务获取自己年份的数据 - 理想情况。

即使您错误地指定了下限和/或上限，例如设置 lower = 0 和 upper = 2016，数据传输会有偏差，但是，您不会“丢失”或无法检索任何数据，因为:

第一个任务将获取 < 0 年的数据。

第二个任务将获取 0 到 2016/10 之间年份的数据。

第三个任务将获取 2016/10 和 2*2016/10 之间的年份数据。

...

最后一个任务的 where 条件为 year->2016。

T.

关于postgresql - SparkSQL PostgresQL 数据框分区，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31341790/

27

4

0

文章推荐： ios - 当 UIAlertController 显示时，inputAccessoryView 被关闭

文章推荐： ios - 如何在 Xcode 中存档新目标

文章推荐： postgresql 在执行 select 语句时忽略时间戳的毫秒数

apache-spark - SparkSQL - 一些分区出现在 HiveServer2 但不是 SparkSQL
Hive 外部表指向 S3 上的文件，ddl 包括按 eod 子句分区。一个文件夹下有 5 个子文件夹，每个子文件夹下面都有一个文件，用于不同的 partition_date。即 eod=201806
163、SparkSQL – DataFrames
SparkSQL / DataFrames HBase-Spark连接器（在HBase-Spark模块中）利用Spark-1.2.0中引入的DataSource API （SPARK-3247），弥
sql - SparkSQL 错误表未找到
我将 RDD[myClass] 转换为数据帧，然后将其注册为 SQL表 my_rdd.toDF().registerTempTable("my_rdd") 该表是可调用的，可以使用以下命令进行演示 %
sql - SparkSQL - 滞后函数？
我在这看到 DataBricks post ，SparkSql 中支持窗口函数，特别是我正在尝试使用 lag() 窗口函数。我有几行信用卡交易，我已经对它们进行了排序，现在我想遍历这些行，并为每一行
hadoop - 无法连接到 sparkSQL
我正在为 hive 使用远程 mysql 元存储。当我运行 hive 客户端时，它运行完美。但是当我尝试通过 spark-shell 或 spark-submit 使用 spark-sql 时，我无法
mysql - SparkSQL 连接问题
我有一个 Spark 作业，它正在将数据从 CSV 文件加载到 MySQL 数据库中。一切正常，但最近我注意到 Spark 在插入阶段打开了许多连接(300 多个连接)。感觉就像每个插入语句都打开一
apache-spark - SparkSQL 中的惰性求值
这段代码来自 Spark Programming Guide , # The result of loading a parquet file is also a DataFrame. parquet
scala - SparkSQL Dataframe 函数是否爆炸保留顺序？
我有一个 Scala spark DataFrame: df.select($"row_id", $"array_of_data").show +----------+----------------
scala - SparkSQL 函数需要类型为 Decimal
我设计了以下函数来处理任何数字类型的数组: def array_sum[T](item:Traversable[T])(implicit n:Numeric[T]) = item.sum // Reg
apache-spark - SparkSQL 列查询不显示列内容？
我通过 df.saveAsTable 创建了一个持久表当我运行以下查询时，我会收到这些结果 spark.sql("""SELECT * FROM mytable """).show() 我可以查看
apache-spark - sparksql 删除配置单元表
我想通过 sparksql 删除一个配置单元表。在安装了 hadoop 2.6、hive 2.0、spark 1.6 和 spark 2.0 的集群中。我在两个版本的 pyspark shell 和
pyspark - 计算 SPARKSQL 中重复行的数量
我有一个要求，我需要计算 SparkSQL 中 Hive 表的重复行数。 from pyspark import SparkContext, SparkConf from pyspark.sql im
postgresql - SparkSQL PostgresQL 数据框分区
我有一个连接到 Postgres 数据库的 SparkSQL 的非常简单的设置，我正在尝试从一个表中获取一个 DataFrame，该 DataFrame 具有 X 个分区(假设为 2)。代码如下: M
hadoop - SparkSql 中的存储过程/函数
有什么方法可以在 sparksql 中实现存储过程或函数等 sql 功能？我知道 hbase 中的 hpl sql 和协处理器。但是想知道 spark 中是否有类似的东西。最佳答案您可以考虑使用
python - Pyspark sparkSql 问题
我正在使用 cloudera vm 10.0，spark 版本为 1.6。登录 pyspark 控制台后，我正在尝试以下语句从配置单元中获取数据 sqlContext.sql("select * f
apache-spark-sql - SparkSQL - 相关标量子查询只能包含相等谓词
我想用 Spark SQL 2.0 执行以下查询 SELECT a.id as id, (SELECT SUM(b.points) FROM tableB b WHERE b.id = a.i
apache-spark - SparkSQL DataFrame 跨分区排序
我正在使用 spark sql 对我的数据集运行查询。查询的结果很小，但仍然是分区的。我想合并生成的 DataFrame 并按列对行进行排序。我试过 DataFrame result = spark
apache-spark - HBase 表上的 SparkSQL
任何人都直接在 HBase 表上使用 SparkSQL，就像在 Hive 表上使用 SparkSQL。我是spark新手。请指导我如何连接hbase和spark。如何查询hbase表。最佳答案 A
amazon-s3 - 在简单的 SparkSQL 查询中未修剪分区
我正在尝试从 SparkSQL 表(S3 中的 Parquet )中有效地选择单个分区。但是，我看到 Spark 打开表中所有 Parquet 文件的证据，而不仅仅是那些通过过滤器的文件。对于具有大量
apache-spark - SparkSQL 和 UDT
我尝试使用 SparkSQL (v.1.3.0) 访问 PostgreSQL 数据库。在这个数据库中，我有一个表 CREATE TABLE test ( id bigint, values dou

首页

博学

6Ren·AI

商城

postgresql - SparkSQL PostgresQL 数据框分区