r - left_join 用于 tbl : na_matches not working-6ren

r - left_join 用于 tbl : na_matches not working

转载作者：行者123 更新时间：2023-12-03 16:22:44

left_join在小标题或数据帧上使用 NA 值按预期工作，但在 tbl 上，它似乎与 NA 不匹配，即使使用选项 na_matches = "na"。

R 版本和包版本

> sessionInfo()
R version 3.6.1 (2019-07-05)
Platform: x86_64-apple-darwin18.6.0 (64-bit)
Running under: macOS Mojave 10.14.6
...
other attached packages:
 [1] reprex_0.3.0    dbplyr_1.4.2    lubridate_1.7.4 magrittr_1.5    forcats_0.4.0   stringr_1.4.0   dplyr_0.8.1     purrr_0.3.2     readr_1.3.1
[10] tidyr_0.8.3     tibble_2.1.3    ggplot2_3.2.0   tidyverse_1.2.1
...

以下是 SQLite 的一个代表，但 PostgreSQL 也发生了同样的情况(我实际上偶然发现了 PostgreSQL DB 的问题)。

最小的代表。

(1) 我创建了 2 个数据框，将它们本地复制到 SQLite DB，然后将它们再次加载为 tbl。

library(tidyverse)
con <- DBI::dbConnect(RSQLite::SQLite(), ":memory:")
df_1 <- tibble(A = c("a", "aa"), B = c("b", "bb"), D = c("d", NA))
df_2 <- tibble(A = c("a", "aa"), C = c("c", "cc"), D = c("d", NA))
copy_to(con, df_1, overwrite = T)
copy_to(con, df_2, overwrite = T)
dt_1 <- tbl(con, "df_1")
dt_2 <- tbl(con, "df_2")

df_1
#> # A tibble: 2 x 3
#>   A     B     D    
#>   <chr> <chr> <chr>
#> 1 a     b     d    
#> 2 aa    bb    <NA>

df_2
#> # A tibble: 2 x 3
#>   A     C     D    
#>   <chr> <chr> <chr>
#> 1 a     c     d    
#> 2 aa    cc    <NA>

dt_1
#> # Source:   table<df_1> [?? x 3]
#> # Database: sqlite 3.29.0 [:memory:]
#>   A     B     D    
#>   <chr> <chr> <chr>
#> 1 a     b     d    
#> 2 aa    bb    <NA>

dt_2
#> # Source:   table<df_2> [?? x 3]
#> # Database: sqlite 3.29.0 [:memory:]
#>   A     C     D    
#>   <chr> <chr> <chr>
#> 1 a     c     d    
#> 2 aa    cc    <NA>

(2) 然后我用 left_join ，首先在数据帧上，然后在 tbls 上:

left_join(df_1, df_2)
#> Joining, by = c("A", "D")
#> # A tibble: 2 x 4
#>   A     B     D     C    
#>   <chr> <chr> <chr> <chr>
#> 1 a     b     d     c    
#> 2 aa    bb    <NA>  cc

left_join(dt_1, dt_2, na_matches = "na")
#> Joining, by = c("A", "D")
#> # Source:   lazy query [?? x 4]
#> # Database: sqlite 3.29.0 [:memory:]
#>   A     B     D     C    
#>   <chr> <chr> <chr> <chr>
#> 1 a     b     d     c    
#> 2 aa    bb    <NA>  <NA>

我们可以看到第二行最后一列 C有预期的 cc在数据帧的情况下(默认为 na_matches = "na" )但 <NA>在 tbl 的情况下，即使使用显式选项 na_matches = "na" (根据文档，这是默认设置)。 这是出乎意料的 .

编辑

请注意，这与带有 na_matches = "never" 的数据帧的结果相同。 :


left_join(df_1, df_2, na_matches = "never")
#> Joining, by = c("A", "D")
#> # A tibble: 2 x 4
#>   A     B     D     C    
#>   <chr> <chr> <chr> <chr>
#> 1 a     b     d     c    
#> 2 aa    bb    <NA>  <NA>

顺便说一句，标题提到 left_join因为它是最常见的连接，但是 inner_join 也会出现同样的问题( full_join 还没有用于数据表)，如果我们保留 na_matches = "na" 可能会更加明显同时:

inner_join(dt_1, dt_2, na_matches = "na")
#> Joining, by = c("A", "D")
#> # Source:   lazy query [?? x 4]
#> # Database: sqlite 3.29.0 [:memory:]
#>   A     B     D     C    
#>   <chr> <chr> <chr> <chr>
#> 1 a     b     d     c
inner_join(df_1, df_2, na_matches = "na")
#> Joining, by = c("A", "D")
#> # A tibble: 2 x 4
#>   A     B     D     C    
#>   <chr> <chr> <chr> <chr>
#> 1 a     b     d     c    
#> 2 aa    bb    <NA>  cc

最佳答案

为了响应@philipxy 在left_join 过程中进一步挖掘的请求，我进入了left_join 的 Debug模式。，首先在数据表上:

debug(left_join)
left_join(dt_1, dt_2, na_matches = "na")
#>  debugging in: left_join(dt_1, dt_2, na_matches = "na")
#>  debug: {
#>      UseMethod("left_join")
#>  }
Browse[2]>  n
#>  debug: UseMethod("left_join")
#>  Browse[2]> n
#>  debugging in: left_join.tbl_lazy(dt_1, dt_2, na_matches = "na")
#>  debug: {
#>      add_op_join(x, y, "left", by = by, sql_on = sql_on, copy = copy,
#>          suffix = suffix, auto_index = auto_index, ...)
#>  }
Browse[3]>
#>  debug: add_op_join(x, y, "left", by = by, sql_on = sql_on, copy = copy,
#>      suffix = suffix, auto_index = auto_index, ...)
Browse[3]> s
#>  debugging in: add_op_join(x, y, "left", by = by, sql_on = sql_on, copy = copy,
#>      suffix = suffix, auto_index = auto_index, ...)
#>  debug: {
#>      if (!is.null(sql_on)) {
#>         by <- list(x = character(0), y = character(0), on = sql(sql_on))
#>      }
#>      else if (identical(type, "full") && identical(by, character())) {
#>          type <- "cross"
#>          by <- list(x = character(0), y = character(0))
#>      }
#>      else {
#>          by <- common_by(by, x, y)
#>      }
#>      y <- auto_copy(x, y, copy = copy, indexes = if (auto_index)
#>          list(by$y))
#>      vars <- join_vars(op_vars(x), op_vars(y), type = type, by = by,
#>          suffix = suffix)
#>      x$ops <- op_double("join", x, y, args = list(vars = vars,
#>          type = type, by = by, suffix = suffix))
#>      x
#>  }
Browse[4]> f
#>  Joining, by = c("A", "D")
#>  exiting from: add_op_join(x, y, "left", by = by, sql_on = sql_on, copy = copy,
#>      suffix = suffix, auto_index = auto_index, ...)
#>  exiting from: left_join.tbl_lazy(dt_1, dt_2, na_matches = "na")
#>  exiting from: left_join(dt_1, dt_2, na_matches = "na")
#>  # Source:   lazy query [?? x 4]
#>  # Database: sqlite 3.29.0 [:memory:]
#>    A     B     D     C
#>    <chr> <chr> <chr> <chr>
#>  1 a     b     d     c
#>  2 aa    bb    NA    NA

我们看到 left_join来电 left_join.tbl_lazy在带有 na_matches = “na” 的数据表上选项。
然而，这之后是对 add_op_join 的调用。其定义未提及 na_matches .

然后，相比之下，在数据帧上:

left_join(df_1, df_2)
#>  debugging in: left_join(df_1, df_2)
#>  debug: {
#>      UseMethod("left_join")
#>  }
Browse[2]> n
#>  debug: UseMethod("left_join")
Browse[2]>
#>  debugging in: left_join.tbl_df(df_1, df_2)
#>  debug: {
#>      check_valid_names(tbl_vars(x))
#>      check_valid_names(tbl_vars(y))
#>      by <- common_by(by, x, y)
#>      suffix <- check_suffix(suffix)
#>      na_matches <- check_na_matches(na_matches)
#>      y <- auto_copy(x, y, copy = copy)
#>      vars <- join_vars(tbl_vars(x), tbl_vars(y), by, suffix)
#>      by_x <- vars$idx$x$by
#>      by_y <- vars$idx$y$by
#>      aux_x <- vars$idx$x$aux
#>      aux_y <- vars$idx$y$aux
#>      out <- left_join_impl(x, y, by_x, by_y, aux_x, aux_y, na_matches,
#>          environment())
#>      names(out) <- vars$alias
#>      reconstruct_join(out, x, vars)
#>  }
Browse[3]>
#>  debug: check_valid_names(tbl_vars(x))
Browse[3]>
#>  debug: check_valid_names(tbl_vars(y))
Browse[3]>
#>  debug: by <- common_by(by, x, y)
Browse[3]>
#>  Joining, by = c("A", "D")
#>  debug: suffix <- check_suffix(suffix)
Browse[3]>
#>  debug: na_matches <- check_na_matches(na_matches)
Browse[3]>
#>  debug: y <- auto_copy(x, y, copy = copy)
Browse[3]> na_matches
#>  [1] TRUE
Browse[3]> f
#>  exiting from: left_join.tbl_df(df_1, df_2)
#>  exiting from: left_join(df_1, df_2)
#>  # A tibble: 2 x 4
#>    A     B     D     C
#>    <chr> <chr> <chr> <chr>
#>  1 a     b     d     c
#>  2 aa    bb    NA    cc

我们看到 left_join来电 left_join.tbl_df在数据帧上。再往下，我们看到 na_matches设置为 TRUE在用作 left_join_impl 中的参数之前.这一切都是有道理的。

输入 ?left_join.tbl_lazy 时文档返回 join.tbl_sql {dbplyr} 的本地页面其中声明了未指定的参数( … ):

“传递给方法的其他参数，例如， na_matches 控制 NA 值的匹配方式。见 join.tbl_df更多”。

关注 join.tbl_df文档链接，它清楚地提到了 na_matches :

“使用 'never' 始终将两个 NA 或 NaN 值视为不同，例如数据库源的连接，类似于 merge(incomparables = FALSE)。默认值 'na' 始终将两个 NA 或 NaN 值视为相等，例如合并(). 用户和包作者可以通过调用 pkgconfig::set_config('dplyr::na_matches' = 'never')"来更改默认行为。

所以文档和数据表的代码之间似乎存在一些不一致。

此外，@philipxy 提到了这个 news link其中声明“要匹配 NA 值，请将 na_matches = 'na' 传递给连接动词； 仅支持数据帧 ”。现在 dt_1 和 df_1 的类是:

class(df_1)
#>  [1] "tbl_df"     "tbl"        "data.frame"
class(dt_1)
#>  [1] "tbl_SQLiteConnection" "tbl_dbi"              "tbl_sql"
#>  [4] "tbl_lazy"             "tbl"

我想术语“数据框”是指类 data.frame和 tbl_df ，而我所说的“数据表”是另一个 tbl_*包括 tbl_sql和 tbl_lazy .所以这个新闻链接也回答了这个问题。

不过，我认为连接动词的当前文档令人困惑。它应该清楚地说明:

“ 对于数据框默认为 na_matches = 'na'，对于数据表 默认为 na_matches = 'never'(没有其他选择)”。

希望，选择 na_matches = "na"数据表将在不久的将来实现。

关于r - left_join 用于 tbl : na_matches not working，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57734832/

文章推荐： sqlite - 使 SQLite 在第一个错误时中止(并唱歌)

文章推荐： cocoa - NSManagedObject 关系 NSSet 迭代

文章推荐： cocoa - 如何编写核心数据谓词来过滤特定的子实体类型？

文章推荐： Sqlite 优化 : Read only scenario

r - 如何在多个数据帧上使用 left_join？
如何更方便的合并dataframe？我有三个数据框(table_base/table_a/table_b)。我想按行组合它们以获得结果为“table_final”。下面是我的代码，它可以工作，但有点
r - 对特定行应用 left_join
假设我有 2 个要合并的 data.frames。数据如下: options(scipen = 999) LHS <- structure( list( v1 = c(1, 2
r - left_join 两个数据帧并覆盖
我想合并两个数据框，其中 df2覆盖 NA 的任何值或出现在 df1 . Merge data frames and overwrite values提供 data.table选项，但我想知道是否有办
r - left_join 不合并所有值
我正在合并两个 data.frames，dat1和 dat2 , 通过 temp并且合并没有提供 dat2 的所有值.为什么值来自 dat2合并不正确？示例数据 dat1 <- data.frame
r - 将省略号中的对象名称作为字符串传递给 left_join
背景我有一个简单的辅助函数，它可以将 left_join 应用到任意数量的传递给其他表的 gather 中，并返回一个对象。例子 # Settings ----------------------
r - left_join 在键有空格时产生 NA
我从左连接中得到了意想不到的 NA 模式。数据来自this week's Tidy Tuesday . library(tidyverse) breed_traits % select(Breed
r - 如何 left_join() 两个数据集但只从其中一个数据集中选择特定列？
这里有两个数据集:(这是假数据) library(tidyverse) myfruit myfruit # A tibble: 4 x 2 fruit_name number
R - 如何按列索引使用 dplyr left_join？
如何将列索引用于 dplyr::left_join(和您的家人)？示例(按列名): library(dplyr) data1 <- data.frame(var1 = c("a"
r - 根据条件使用 left_join 合并数据
我有两个要合并的数据框。 “数据”看起来像: Filled_Ticker2LP publishYear CO_1_Name 1: SONC
r - left_join 表示列不存在，即使它存在
我想用两个不同的变量 tp join 连接两个数据框。有一个错误表明它无法在第二个数据框中找到变量。但是当我运行函数 colnames() 时，列名出现了。为什么会这样？ df_new <- left
r - 使用变量名称向量在 left_join 之后合并重复变量
我经常遇到合并重复列的非 NA 值并删除重复项的问题。它类似于 in this question 或 this one 所描述的内容。我想围绕 coalesce(并可能包括 left_join)创建一
R 函数在 left_join 中进行故障回复？
我有 20 多个不同的数据表，这些数据表由相同的编码系统(北美行业分类系统，NAICS)索引，我想将它们合并到一个表中。问题是每个表中都有不同级别的详细信息，当我加入时，我想通过失败编码系统的层次结
r - dplyr/left_join 中的嵌套管链
在尝试获得分组滞后变量的过程中(仅使用 lag 是不可能的)，建议的解决方案是提取数据，滞后不同的行，然后重新加入它。我更喜欢在不创建中间对象的情况下执行此操作，并且希望在链的中间执行此操作。然而，
r - left_join 在具有不同列名的 for 循环中
我有一个名为 a 的 data.frame其结构类似于:- a % mutate(row = row_number()) %>% pivot_longer(cols = -row) %>%
r - dplyr left_join()按行名
我正在使用dplyrs函数left_join组合两个data.frames。现在，我想通过在左侧data.frame中使用rownames并在left_join右侧data.frame中使用
r - left_join (dplyr) 下一个可用日期
我在“R”中有 2 个数据集。第一个数据库包含特定日期: Value Date # 20 2017-10-19 # 19 2017
mysql - LEFT_JOIN 产生意外结果。 (返回空值)
当涉及到 MySQL 时，我仍在学习，并且我正在尝试将问题与其答案组合在一起(就像在学校进行测试一样)。这是我通过查询得到的结果: 预期结果是底部 4 行，其中所有数据都可用。 (对我来说)更令人困惑
r - dplyr left_join 匹配 NA
当沿着一个键连接 data.frames 并且一个键有一个缺失值 (NA) 时，我的直觉是带有 NA 键的行在第二个 data.frame 中应该没有匹配项。令我惊讶的是，如果两个 data.fram
r - 覆盖 left_join dplyr 来更新数据
我的问题与此类似，但是我在 LHS 中还有其他列应该保留 https://stackoverflow.com/a/35642948/9285732 y是 x 的子集带有 val1 的更新值。在 x我想
r - dplyr 的 left_join 行为不正确？
这肯定不是故意的？这是在 dplyr 的其他地方发生的事情吗？的功能，我应该担心吗？爱表演又恨data.table句法。是否有替代 dplyr 的替代方案？和 data.table目前可以安全使用并且

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - left_join 用于 tbl : na_matches not working