- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 spark 从 postgres 表中读取并将其作为 json 转储到 Google 云存储。该表很大,有数百个 GB。该代码相对简单(请参见下文)但因 OOM 而失败。似乎 spark 在开始写入之前试图在内存中读取整个表。这是真的?我怎样才能改变行为,使其以流方式读取和写入?
谢谢。
SparkSession sparkSession = SparkSession
.builder()
.appName("01-Getting-Started")
.getOrCreate();
Dataset<Row> dataset = sparkSession.read().jdbc("jdbc:postgresql://<ip>:<port>/<db>", "<table>", properties);
dataset.write().mode(SaveMode.Append).json("gs://some/path");
最佳答案
有几个重载 DataFrameReader.jdbc()
用于在输入上拆分 JDBC 数据的方法。
jdbc(String url, String table, String[] predicates, java.util.Properties connectionProperties) - 生成的 DataFrame 将为每个给定的谓词分配一个分区,例如
String[] preds = {“state=‘Alabama’”, “state=‘Alaska’”, “state=‘Arkansas’”, …};
Dataset<Row> dataset = sparkSession.read().jdbc("jdbc:postgresql://<ip>:<port>/<db>", "<table>", preds, properties);
jdbc(String url, String table, String columnName, long lowerBound, long upperBound, int numPartitions, java.util.Properties connectionProperties) - Spark 将根据数字列划分数据 columnName
进入numPartitions
lowerBound
之间的分区和 upperBound
包括在内,例如:
Dataset<Row> dataset = sparkSession.read().jdbc("jdbc:postgresql://<ip>:<port>/<db>", "<table>", “<idColumn>”, 1, 1000, 100, properties);
关于postgresql - 在简单的读写上激发 OOM,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56972600/
我最近想将 Cython 与 Spark 一起使用,为此我关注了 the following reference . 我写了下面提到的程序,但我得到了: TypeError: fib_mapper_c
我目前拥有它,因此当单击链接时我的标题会滑入。如何做到(当单击链接时)当前标题会在新标题滑入之前滑出? 这是我一直在使用的clicked事件。这可能很奇怪,我一直在添加不同的东西来尝试让它工作。 //
我正在编写一个使用 kubernetes 而不是 yarn 的 spark 作业。 val spark = SparkSession.builder().appName("Demo").master(
我已成功实现客户端/服务器 Android GCM 应用程序。我的应用服务器拥有一个 device/registration_id 对的数据库。消息通过 Web 可访问的 PHP 页面发送到设备。我正
我正在使用 iTunes Connect 中的新测试版功能。我将一个构建 (98) 上传到 iTunes Connect,设置了一些内部测试人员,他们下载了该构建。 现在我已经用新版本(build 9
我是一名优秀的程序员,十分优秀!