python - 多个 RDD 的 Spark union-6ren

python - 多个 RDD 的 Spark union

转载作者：IT老高更新时间：2023-10-28 21:53:10

33

4

在我的 pig 代码中，我这样做:

all_combined = Union relation1, relation2, 
    relation3, relation4, relation5, relation 6.

我想对 spark 做同样的事情。然而，不幸的是，我看到我必须继续成对地做:

first = rdd1.union(rdd2)
second = first.union(rdd3)
third = second.union(rdd4)
# .... and so on

是否有联合运算符可以让我一次对多个 rdd 进行操作:

例如union(rdd1, rdd2,rdd3, rdd4, rdd5, rdd6)

这是一个方便的问题。

最佳答案

如果这些是 RDD，你可以使用 SparkContext.union 方法:

rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize([4, 5, 6])
rdd3 = sc.parallelize([7, 8, 9])

rdd = sc.union([rdd1, rdd2, rdd3])
rdd.collect()

## [1, 2, 3, 4, 5, 6, 7, 8, 9]

没有 DataFrame 等价物，但它只是一个简单的单线问题:

from functools import reduce  # For Python 3.x
from pyspark.sql import DataFrame

def unionAll(*dfs):
    return reduce(DataFrame.unionAll, dfs)

df1 = sqlContext.createDataFrame([(1, "foo1"), (2, "bar1")], ("k", "v"))
df2 = sqlContext.createDataFrame([(3, "foo2"), (4, "bar2")], ("k", "v"))
df3 = sqlContext.createDataFrame([(5, "foo3"), (6, "bar3")], ("k", "v"))

unionAll(df1, df2, df3).show()

## +---+----+
## |  k|   v|
## +---+----+
## |  1|foo1|
## |  2|bar1|
## |  3|foo2|
## |  4|bar2|
## |  5|foo3|
## |  6|bar3|
## +---+----+

如果 DataFrames 的数量很大，则在 RDD 上使用 SparkContext.union 并重新创建 DataFrame 可能是避免 issues related to the cost of preparing an execution plan 的更好选择:

def unionAll(*dfs):
    first, *_ = dfs  # Python 3.x, for 2.x you'll have to unpack manually
    return first.sql_ctx.createDataFrame(
        first.sql_ctx._sc.union([df.rdd for df in dfs]),
        first.schema
    )

关于python - 多个 RDD 的 Spark union，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33743978/

33

4

0

文章推荐： android - ImageView ScaleType 忽略填充

文章推荐： JavaScript 异步编程 : promises vs generators

c - 为 union 分配内存以及 union 指针和指针 union 之间的区别
自从我的问题here无法自信地回答，我在这里再次询问，希望有人确切知道: 指向 union 的指针和包含指向其元素的指针的 union 之间有什么区别(除了语法之外)吗？ this中生成的程序集示例是
c - union 内的 union
在 C 语言中，是否可以在另一个 union 体中定义一个 union 体？如果不是，为什么不可能？或者如果可以，可以在哪里使用？最佳答案假设您要定义: union myun { int x;
c - union 中的 union
在 C 中，是否可以在另一个 union 中定义一个 union ？如果不是，为什么不可能？或者如果是，它可以在哪里使用？最佳答案假设你想定义: union myun { int x; s
c - union 内的无名 union
我正在阅读一些代码并发现如下内容: typedef union { int int32; int boolean; time_t date; char *string;
lua - 为什么不能使用Set:union()代替Set.union？
我正在学习Lua，我更愿意使用冒号（:）作为方法。不幸的是，它并非在所有地方都有效。看我的代码：设置= {} 本地mt = {} 函数Set：new（m）本地集= {} setmetatable（
sql - 在同一查询中使用 UNION 和 UNION ALL
我遇到了一些性能问题，我有如下查询: SELECT * FROM Foo UNION SELECT * FROM Boo UNION SELECT * FROM Koo 我确信 Koo 不会返回任何重
c++ - 将C union 转换为C++ union
This question already has answers here: C++ Structure Initialization (16个答案) 上个月关闭。我正在尝试将一些用于嵌入式目标的
sql - UNION 和 UNION ALL 有什么区别？
UNION 和 UNION ALL 有什么区别？最佳答案 UNION 删除重复记录(结果中的所有列都相同)，UNION ALL 则不会。使用 UNION 而不是 UNION ALL 时会影响性能，
sql - Union - 仅删除由 Union 创建的重复项
我想在两个表上使用联合运算符。我希望结果集消除由联合创建的重复值，但不消除表中预先存在的重复值。考虑这段代码... select b from (values (1), (2), (2
Tsql，union 改变结果顺序，union all 不
我知道 UNION 会删除重复项，但即使没有重复项也会更改结果顺序。我有两个 select 语句，任何地方都没有 order by 语句我想将它们合并或不合并(全部) 即 SELECT A UNI
我可以为一个 union 成员分配一个值并从另一个 union 成员那里读取相同的值吗？
基本上，我有一个 struct foo { /* variable denoting active member of union */ enum whichmembe
mysql - 组合多个选择而不使用 Union 或 Union All
我有一个大规模查询，用于对许多表(每个表有数千行)执行 UNION ALL，然后在返回之前输出到临时表。旧形式: SELECT * FROM (SELECT `a` AS `Human rea
sql - UNION 和 UNION ALL 有什么区别？
UNION 和 UNION ALL 有什么区别？最佳答案 UNION 删除重复记录(结果中的所有列都相同)，UNION ALL 则不会。使用 UNION 而不是 UNION ALL 时会影响性能，
c++ - 对象 union 与指针 union
如果我有两个 union 行结构: struct A { A() {} ~A() {} union { vector vi; vector db
关于另一个 union 中 union 字段的编译错误
考虑下面的代码，我已经写了: #include #include union myAccess { uint16_t access16; struct { uint
可以将 union 内的对齐结构强制转换为 union 以访问对齐字段吗？
我想弄清楚你从 C99 中对齐变量的地役权中得到了什么: Exception to strict aliasing rule in C from 6.5.2.3 Structure and union
php - UNION 与 UNION ALL 的性能对比
我正在通过 UNION 或 UNION ALL 从多个表中选择一列外键。当重复无关紧要时，通常建议使用 UNION ALL 而不是 UNION 来解决性能问题。但是，在我的调用 PHP 脚本中，循环
c++ - 为什么 union 静态成员不存储为 union ？
在 C++ 中，union 可以包含静态成员，在类的情况下，这些成员属于一个类，因此对所有对象都是通用的。 union U { long l; int i; static long
c++ - 匿名 union 和普通 union
任何人都可以提及普通和匿名 union (或结构)之间的区别吗？我刚找到一个: 不能在匿名 union 中定义函数。最佳答案您不需要点运算符“.”访问匿名 union 元素。 #include
c - union 成员如何拥有指向 union 实例的指针？
我可能把这个复杂化了.. 我正在尝试在 Arduino 上用 C 语言为嵌入式应用程序制作一个相当可重用的分层菜单系统。我有结构来表示不同类型的菜单项，包括那些子菜单，以及这些菜单项的 union 是

首页

博学

6Ren·AI

商城

python - 多个 RDD 的 Spark union