postgresql - 在简单的读写上激发 OOM-6ren

postgresql - 在简单的读写上激发 OOM

转载作者：行者123 更新时间：2023-11-29 13:09:19

27

4

我正在使用 spark 从 postgres 表中读取并将其作为 json 转储到 Google 云存储。该表很大，有数百个 GB。该代码相对简单(请参见下文)但因 OOM 而失败。似乎 spark 在开始写入之前试图在内存中读取整个表。这是真的？我怎样才能改变行为，使其以流方式读取和写入？

谢谢。

SparkSession sparkSession = SparkSession
                .builder()
                .appName("01-Getting-Started")
                .getOrCreate();
Dataset<Row> dataset = sparkSession.read().jdbc("jdbc:postgresql://<ip>:<port>/<db>", "<table>", properties);
dataset.write().mode(SaveMode.Append).json("gs://some/path");

最佳答案

有几个重载 DataFrameReader.jdbc()用于在输入上拆分 JDBC 数据的方法。

jdbc(String url, String table, String[] predicates, java.util.Properties connectionProperties) - 生成的 DataFrame 将为每个给定的谓词分配一个分区，例如

String[] preds = {“state=‘Alabama’”, “state=‘Alaska’”, “state=‘Arkansas’”, …};
Dataset<Row> dataset = sparkSession.read().jdbc("jdbc:postgresql://<ip>:<port>/<db>", "<table>", preds, properties);

jdbc(String url, String table, String columnName, long lowerBound, long upperBound, int numPartitions, java.util.Properties connectionProperties) - Spark 将根据数字列划分数据 columnName进入numPartitions lowerBound 之间的分区和 upperBound包括在内，例如:

Dataset<Row> dataset = sparkSession.read().jdbc("jdbc:postgresql://<ip>:<port>/<db>", "<table>", “<idColumn>”, 1, 1000, 100, properties);

关于postgresql - 在简单的读写上激发 OOM，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56972600/

27

4

0

文章推荐： sql - 在 PostgreSQL 中插入后计算平均值

文章推荐： iphone - 正确处理多个 View 的触摸

文章推荐： ios - NSUbiquitousKeyValueStore 的内部同步是如何工作的？

python - 用 Cython 激发 Spark
我最近想将 Cython 与 Spark 一起使用，为此我关注了 the following reference . 我写了下面提到的程序，但我得到了: TypeError: fib_mapper_c
javascript - 使用 Javascript 激发 CSS 动画
我目前拥有它，因此当单击链接时我的标题会滑入。如何做到(当单击链接时)当前标题会在新标题滑入之前滑出？这是我一直在使用的clicked事件。这可能很奇怪，我一直在添加不同的东西来尝试让它工作。 //
apache-spark - 用 kubernetes 代替 yarn 激发 Spark
我正在编写一个使用 kubernetes 而不是 yarn 的 spark 作业。 val spark = SparkSession.builder().appName("Demo").master(
android - GCM 测试，如何用 canonical_id 激发 GCM 服务器响应？
我已成功实现客户端/服务器 Android GCM 应用程序。我的应用服务器拥有一个 device/registration_id 对的数据库。消息通过 Web 可访问的 PHP 页面发送到设备。我正
app-store-connect - 激发 TestFlight/iTunes Connect 发布新的 beta 版本
我正在使用 iTunes Connect 中的新测试版功能。我将一个构建 (98) 上传到 iTunes Connect，设置了一些内部测试人员，他们下载了该构建。现在我已经用新版本(build 9

首页

博学

6Ren·AI

商城

postgresql - 在简单的读写上激发 OOM