gpt4 book ai didi

apache-spark - partitionColumn、lowerBound、upperBound、numPartitions参数是什么意思?

转载 作者:行者123 更新时间:2023-12-03 10:50:20 26 4
gpt4 key购买 nike

在 Spark 中通过 JDBC 连接从 SQL Server 获取数据时,我发现我可以设置一些并行化参数,例如 partitionColumn , lowerBound , upperBound , 和 numPartitions .我经历过spark documentation但无法理解。

谁能解释一下这些参数的含义?

最佳答案

实际上上面的列表遗漏了一些东西,特别是第一个和最后一个查询。

没有它们,您会丢失一些数据( lowerBound 之前的数据和 upperBound 之后的数据)。从示例中看不清楚,因为下限为 0。

完整列表应该是:

SELECT * FROM table WHERE partitionColumn < 100

SELECT * FROM table WHERE partitionColumn BETWEEN 0 AND 100
SELECT * FROM table WHERE partitionColumn BETWEEN 100 AND 200

...
SELECT * FROM table WHERE partitionColumn > 9000

关于apache-spark - partitionColumn、lowerBound、upperBound、numPartitions参数是什么意思?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41085238/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com