作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在 Spark 中通过 JDBC 连接从 SQL Server 获取数据时,我发现我可以设置一些并行化参数,例如 partitionColumn
, lowerBound
, upperBound
, 和 numPartitions
.我经历过spark documentation但无法理解。
谁能解释一下这些参数的含义?
最佳答案
实际上上面的列表遗漏了一些东西,特别是第一个和最后一个查询。
没有它们,您会丢失一些数据( lowerBound
之前的数据和 upperBound
之后的数据)。从示例中看不清楚,因为下限为 0。
完整列表应该是:
SELECT * FROM table WHERE partitionColumn < 100
SELECT * FROM table WHERE partitionColumn BETWEEN 0 AND 100
SELECT * FROM table WHERE partitionColumn BETWEEN 100 AND 200
SELECT * FROM table WHERE partitionColumn > 9000
关于apache-spark - partitionColumn、lowerBound、upperBound、numPartitions参数是什么意思?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41085238/
在 Spark 中通过 JDBC 连接从 SQL Server 获取数据时,我发现我可以设置一些并行化参数,例如 partitionColumn , lowerBound , upperBound ,
我正在尝试将 spark 版本 2.2.1 更改为 2.4.0 在 spark 2.2 中,以下工作正常。 val query = "(select id, myPartitionColumnStri
我正在尝试使用 spark-sql-2.4.1 版本从 oracle 检索数据。 我尝试将 JdbcOptions 设置为如下: .option("lowerBound", "31-MAR-0
我是一名优秀的程序员,十分优秀!