scala - 在 spark 中使用 partitionBy 和 coalesce-6ren

scala - 在 spark 中使用 partitionBy 和 coalesce

转载作者：行者123 更新时间：2023-12-02 16:54:17

25

4

我需要根据特定的 Partition 键将数据写入 s3，这可以使用 write.partitionBy 轻松完成。但是，在这种情况下，我只需要在每个路径中写入一个文件。我正在使用以下代码来执行此操作。

    orderFlow.coalesce(1).write.partitionBy("SellerYearMonthWeekKey")
      .mode(SaveMode.Overwrite)
      .format("com.databricks.spark.csv")
      .option("delimiter", ",")
      .option("header", "true")
      .save(outputS3Path + "/")

能否请您帮助我找到实现此目标的最佳方法？在上述情况下，我遇到了 OutOfMemmory 错误。

最佳答案

如果您想为每个分区输出一个文件，您可以按 partitionBy 中使用的相同列对数据集进行重新分区

   orderFlow.repartition("SellerYearMonthWeekKey")
      .write.partitionBy("SellerYearMonthWeekKey")
      .mode(SaveMode.Overwrite)
      .format("com.databricks.spark.csv")
      .option("delimiter", ",")
      .option("header", "true")
      .save(outputS3Path + "/")

这将花费您一次洗牌但保证每个分区目录一个文件。

关于scala - 在 spark 中使用 partitionBy 和 coalesce，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57110347/

25

4

0

文章推荐： spring - PostGIS几何保存: "Invalid endian flag value encountered."

文章推荐： javascript通过空格分割3个元素

文章推荐： haskell - 获取 Parsec 的左输入

postgresql - 在 postgres/COALESCE 中正确使用 COALESCE 无法正常工作
我正在尝试返回有关所执行搜索次数的每小时报告。我的结果不包括搜索为零的时间，我认为我的语法正确，可以使用 COALESCE。谁能看到我做错了什么？谢谢 SELECT CAST(startdatetim
mysql - SQL Server 中的 COALESCE 与 MySQL 中的 COALESCE
众所周知，COALESCE 是一个 ANSI SQL 标准函数。它在不同的 RDBMS 中具有相同的功能(即)它返回值列表中的第一个 NOT NULL 值。考虑以下数据设置 CREATE TABLE
coalesce - 错误: COALESCE types timestamp without time zone and integer cannot be matched (Postgresql)
## 问题## 我从这个脚本中收到错误(Postgresql 9.3.2) (在 MS SQL Server 中没问题) SELECT CASE COALESCE(my_date_field,0)
sql - COALESCE 是实现这一目标的最佳方式吗？
只是想看看是否有人有更好的方法来完成我所需要的。先来个背景。我的数据库中有一个表，目前大约有 20,000 行。在表中，我们有一列用于 FirstName 和 LastName。还有一列是 Refe
sql - COALESCE 接受多少个参数？
我在 SO 中找不到它，并且认为在这里找到它可能是值得的，因为 oracle 文档没有指定它。 http://docs.oracle.com/cd/B28359_01/server.111/b2828
Sql COALESCE 整行？
我刚刚了解了 COALESCE，我想知道是否可以在两个表之间合并整行数据？如果没有，以下散漫的最佳方法是什么？例如，我有这两个表并假设所有列都匹配: tbl_员工 Id Name E
SQL 全外连接 WITH/Coalesce
为什么此查询在某些情况下会产生重复项？ Table_1 ID 1 2 3 Table_2 ID 1 2 4 Table_3 ID 1 3 4 询问: SELECT C
postgresql - COALESCE 类型字符变化和数字不能匹配
我有一张名为 table1 的表带列Gender varchar(10)和 Team numeric . create table table1 ( ID integer Gender varchar
sql - COALESCE 的逆
SQL Server 2005 中是否有一个函数，如果任何参数(任何类型)为 NULL，它会返回 NULL [或 bool 值]，这样我就不用编写 IF a 为 NULL 或 b 为 NULL 或 c
sql - COALESCE - 保证短路吗？
来自this question , a neat answer about using COALESCE简化复杂的逻辑树。我考虑了短路的问题。例如，在大多数语言的函数中，参数都会被完全求值，然后传递
delphi - 在数据集过滤器中使用 coalesce()
// lItems is TDataSet or TClientDataSet with lItems do begin Close; Filtered := false; Fi
excel - 如何在电源查询中执行 COALESCE？
我有一个包含季度值的表，我需要添加一个新列，为我提供上个季度的最后一个非空值。例如 ID | Project | Q1 | Q2 | Q3 | Q4 | Current Quarte
mySQL COALESCE 过滤
大家好，Stackoverflowers!我有一个正在处理的查询，我需要过滤掉 0，但它没有删除那些记录，我似乎无法弄清楚原因。请看下面， SELECT disb_sum, pl_balance,
mysql - COALESCE mysql触发器返回错误值
我是 mysql 触发器的新手。只是让我的头脑思考一些事情，以便我了解某些内容是否可能未正确编码或最有效的路线:) 我想做的是在添加数据库条目后通过提交的值连接表以创建用于全文搜索的文本字符串，因为我
mysql - Coalesce 函数如何处理数据类型
我是 REDSHIFT 中 COALESCE 功能的新手。我在 mysql 和 Redshift 中运行了以下四个查询。第一个和第二个查询在 mysql 和 redshift 中均按预期执行。但对于
mysql - COALESCE 提取日期和字符串的结果
首先，我想澄清一下，我已经阅读过 this问题。那里描述的问题与我的问题非常相似，但与一个错误有关，该错误已经解决。通过在 Windows 上运行的 MySQL WorkBench 5.2.47 C
sql - COALESCE 如果表中不存在任何行
我有这两张表: users(这有一个 updated_at 列)和 user_updates(这有一个用户的外键 user_id 和一个 created_at 列) 我想为用户找到最新的用户更新，所以
SQL Coalesce 不返回任何行
我正在使用 Postgres 并有以下 SQL 语句: SELECT * FROM "osmlocal-dsd-de".t_osm_vehicle_image t WHERE t.vehicle_co
sql - "Coalesce"多列
如果我有一个简单的查询 SELECT row FROM table WHERE id=my_id 如果找不到 my_id，我想要一行 NULL 而不是空行，我可以使用 coalesce COALESC
sql - 使用具有不同数据类型的 COALESCE？
我有一个使用 COALESCE(timestamp_type::date,charachter_varying) 的查询，由于数据类型不匹配而失败: 错误:无法匹配 COALESCE 类型的日期和字符

首页

博学

6Ren·AI

商城

scala - 在 spark 中使用 partitionBy 和 coalesce