r - SparkR 合并而不创建重复列-6ren

r - SparkR 合并而不创建重复列

转载作者：行者123 更新时间：2023-12-04 09:55:35

34

4

我决定提出这个问题是因为 the answer provided to a very similar问题不适用于我的场景:

我想合并这两个 SparkR 数据帧 df1

col1    col2    
1       11      
2       22      
3       33      
4       44

和df2

col1    col2    newcol
1       11      401
2       22      402
3       33      403
4       44      404

dfs 应合并到第 1 列和第 2 列。我尝试了上面链接中建议的所有步骤(例如，省略“by”语句)，但结果总是如下所示:

col1_x  col2_x  col1_y  col2_y  newcol
1       11      1       11      401
2       22      2       22      402
3       33      3       33      403
4       44      4       44      404

我不想有重复的列，现在我必须手动删除 col1_y、col2_y 并将 col1_x、col2_x 重命名为只有 col1、col2 和 newcol 作为结果:

df <- merge(df1, df2)  # <- how can I change this?
df$col1_y <- NULL
df$col2_y <- NULL
df <- withColumnRenamed(df, "col1_x", "col1")
df <- withColumnRenamed(df, "col2_x", "col2")

我尝试了使用 by、by.x 和 by.y 语句的各种组合，但都没有奏效。 有没有一种方法可以通过省略其中一个步骤来简化这个繁琐的校正链？谢谢!

最佳答案

这是预期的行为，一种选择是从生成的 DataFrame 中select() 相关列:

library(magrittr) 

# We'll use join to avoid suffixes '_x' & '_y'
join(df1,df2,(df1$col1==df2$col1)&(df1$col2==df2$col2)) %>%
  select(df1$col1,df1$col2,df2$newcol) %>%
  showDF()
#+----+----+------+
#|col1|col2|newcol|
#+----+----+------+
#|   1|11.0|   401|
#|   2|22.0|   402|
#|   3|33.0|   403|
#|   4|55.0|   404|
#+----+----+------+

关于r - SparkR 合并而不创建重复列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38847967/

34

4

0

文章推荐： lua - 什么是嵌入零？

文章推荐： r - 大数据 : generalized linear mixed-effects models

文章推荐： sql - Entity Framework 和动态 order by 语句

文章推荐： symfony - 包括 Twig 中的非 Twig 文件

sparkr - 在 SparkR 中使用应用函数
我目前正在尝试使用 sparkR 1.5.1 版实现一些功能。我看过较旧的(1.3 版)示例，其中人们在 DataFrames 上使用了 apply 函数，但看起来这不再直接可用。例子: x = c(
sparkr - 带有 sparkr 的 zeppelin 没有将数据帧显示为表格
zeppelin R 解释器文档说明: If you return a data.frame, Zeppelin will attempt to display it using Zeppelin's
sparkr - 有谁知道如何从 hbase 表在 sparkR 中创建数据框？
我正在尝试使用存储在 hbase 中的数据在 sparkR 中创建一个 spark 数据框。有谁知道如何在 SQLontext 中指定数据源参数或任何其他方式来解决这个问题？最佳答案您可能想看看
sparkr - 在 RStudio 中启动 SparkR 时如何解决 (javaVersionNum != sparkJavaVersion)
我收到以下错误: Error in if (javaVersionNum != sparkJavaVersion) { : missing value where TRUE/FALSE needed
apache-spark - RStudio 中 sparkR.init(master ="local") 中的 SparkR 错误
我已将 Spark 发行版中的 SparkR 包安装到 R 库中。我可以调用以下命令，它似乎可以正常工作:library(SparkR) 但是，当我尝试使用以下代码获取 Spark 上下文时， sc
r - 如何在 EMR 集群上使用 Spark-Submit 或 SparkR 运行 SparkR 脚本？
我编写了一个 SparkR 代码，想知道是否可以在 EMR 集群上使用 Spark-submit 或 SparkR 提交它。我尝试过多种方法，例如:sparkR mySparkRScript.r 或
对列中的值进行四舍五入 - SparkR
我在数据框中的一列中有以下值 231204.66666666666 376.0 346593.5 802.0
r - SparkR:如何提取特定列中包含空值的行
免责声明:我几乎没有使用 SparkR 的经验采用以下数据框: ID Date1 Date2 58844880 04/11/16 NaN 59745846
r - SparkR - 将数据帧转换为向量
我正在探索 SparkR 以计算统计数据，例如分位数、平均值、类别频率(源文件为 Amazon S3 - csv 格式)。我能够解析 csv 文件并创建数据框。但是，我无法将此 spark-data
r - SparkR 合并而不创建重复列
我决定提出这个问题是因为 the answer provided to a very similar问题不适用于我的场景: 我想合并这两个 SparkR 数据帧 df1 col1 col2
r - 并行化不工作 sparkR
当我运行下面的代码时: rdd <- lapply(parallelize(sc, 1:10), function(x) list(a=x, b=as.character(x))) df <- cre
join - SparkR:在多个连接条件下连接两个数据帧
SparkR 版本 1.4.1 我正在尝试在两个连接条件下连接两个数据帧 df1 和 df2: df3 <- join(df1, df2, df1$col1==df2$col2 && df1$col3
r - SparkR 中将字符串转换为日期时间？
我有一个从 MySQL 上传到 SparkR 的 Formal Class DataFrame 对象(通过 json 文件)，其中包含如下格式的字符串: “2012-07-02 20:14:00” 我
R SparkR - 相当于熔化函数
SparkR库中有没有类似melt的函数？将 1 行 50 列的数据转换为 50 行 3 列？最佳答案 SparkR 中没有提供类似功能的内置函数。您可以使用 explode 构建自己的 libr
r - SparkR 中将字符串转换为日期时间？
我有一个从 MySQL 上传到 SparkR 的 Formal Class DataFrame 对象(通过 json 文件)，其中包含如下格式的字符串: “2012-07-02 20:14:00” 我
r - 将 sparkr 收集到数据框中
我正在将一些数据加载到 sparkR(Spark 版本 1.4.0，在 fedora21 上运行)，我在上面运行一些算法，生成三个不同的数字。我的算法需要一堆参数，我想在相同数据上运行不同的参数设置。
r - 解码 SparkR 数据框
我有一个 spark 数据框: library(SparkR); library(magrittr) as.DataFrame(mtcars) %>% groupBy("am") 如何取消对这个
r - sparkR sql() 返回字符串
我们在服务器上保存了 parquet 数据，我正在尝试通过以下方式使用 SparkR sql() 函数 df SELECT * FROM parquet.` SELECT * FROM table"
r - 使用输入向量 SparkR 按多列分组
我正在使用 SparkR 2.1.0 进行数据操作我想以编程方式按多列分组。我知道如果我单独列出它们，或者从向量中引用它们的位置，我可以按多列分组......但我希望能够将列列表作为向量传递(这样，
r - 为什么在 SparkR 中收集这么慢？
我有一个位于 Parquet 文件中的 500K 行 spark DataFrame。我正在使用 spark 2.0.0 和 SparkR Spark(RStudio 和 R 3.3.1)中的软件包，

首页

博学

6Ren·AI

商城

r - SparkR 合并而不创建重复列