r - 如何保留原始列以在 r 中两个数据库的 full

r - 如何保留原始列以在 r 中两个数据库的 full_join() 中进行比较

转载作者：行者123 更新时间：2023-12-04 07:54:25

26

4

我试图比较两个数据框以确定其中一列中的差异。为了实现这一点，我正在使用 full_join()来自 tidyverse 但我不知道如何保留数据框的来源，所以我可以理解差异。

#Two databases that differ in Charge for the name and date or also have a entirely unique rows

df1 <- tibble(Name = c("JANE,DOE", "JANE,DOE", "JIM,DOE", "JANE,BUCK", "JIM,BUCK", "JIM,BUCK"),
Date = c("1/1/21", "1/10/21", "2/1/21", "1/2/21", "2/2/21", "2/8/21"),
Charge = c(-500, -500, -450, 0, -450, 0))

df2 <- tibble(Name = c("JANE,DOE", "JANE,DOE", "JIM,DOE", "JANE,BUCK", "JIM,BUCK", "JIM,BUCK", "JIM,BUCK"),
Date = c("1/2/21", "1/10/21", "2/1/21", "1/2/21", "2/2/21", "2/8/21", "2/10/21"),
Charge = c(-500, -500, -450, -500, -500, -500, -50))

我尝试使用组合它们然后识别不同的行

Audit <- full_join(df1,df2)
Audit <- Audit %>% distinct() %>% arrange(Name, Date)

但是我的输出不允许我从 Name 和 Date 唯一的行中对比费用。

Name       Date    Charge
<chr>      <chr>   <dbl>
JANE,BUCK   1/2/21  0       #df2
JANE,BUCK   1/2/21  -500    #df1    
JANE,DOE    1/1/21  -500    #df1    
JANE,DOE    1/10/21 -500    #df1 & df2  
JANE,DOE    1/2/21  -500    #df2    
JIM,BUCK    2/10/21 -50     #df2
JIM,BUCK    2/2/21  -450    #df1    
JIM,BUCK    2/2/21  -500    #df2    
JIM,BUCK    2/8/21  0       #df1
JIM,BUCK    2/8/21  -500    #df2    
JIM,DOE     2/1/21  -450    #df1

我最终想要实现的是审计生成这样的输出

Name       Date    Charge   ChargeDiff
<chr>      <chr>   <dbl>     <dbl>
JANE,BUCK   1/2/21  0       -500 #difference in Charge when name and date are same, but Charge differs
    
JANE,DOE    1/1/21  -500      0  #unique df1 is 0 because we know it is valid

JANE,DOE    1/2/21  -500    -500 #unique in df2 is -500 because it is missing   
JIM,BUCK    2/10/21 -50     -50  #unique in df2 is -50 because it is missing
JIM,BUCK    2/2/21  -450     50  # df1-df2 on 2/2 is -450-(-500) 

JIM,BUCK    2/8/21  0       500  # df1-df2

JIM,DOE     2/1/21  -450    #df1 #unique in df1

我在获取 所需的步骤时遇到了一些麻烦ChangeDiff 列创建。 thera 是一个不同的连接选项，它允许我仅将 df2 中的唯一行添加到 Audit，但在名称和日期对齐的单独列中保留来自 df2 的唯一 Charge 值。

最佳答案

您几乎可以使用 full_join()使用 by()参数允许您控制连接，以便您可以包含两组 Charge在单独的列中。使用 dplyr::mutate()和/或 case_when()生成您的 ChargeDiff柱子。

library(tibble)
library(dplyr)
tib <- 
  df1 %>% 
  full_join(df2, by = c("Name" = "Name", "Date" = "Date")) %>% 
  mutate(ChargDiff = case_when(is.na(Charge.x) | is.na(Charge.y) ~ NA_real_,
                               TRUE ~ Charge.x - Charge.y))

tib
#> # A tibble: 8 x 5
#>   Name      Date    Charge.x Charge.y ChargDiff
#>   <chr>     <chr>      <dbl>    <dbl>     <dbl>
#> 1 JANE,DOE  1/1/21      -500       NA        NA
#> 2 JANE,DOE  1/10/21     -500     -500         0
#> 3 JIM,DOE   2/1/21      -450     -450         0
#> 4 JANE,BUCK 1/2/21         0     -500       500
#> 5 JIM,BUCK  2/2/21      -450     -500        50
#> 6 JIM,BUCK  2/8/21         0     -500       500
#> 7 JANE,DOE  1/2/21        NA     -500        NA
#> 8 JIM,BUCK  2/10/21       NA      -50        NA

创建于 2021-03-24 由 reprex package (v1.0.0)

关于r - 如何保留原始列以在 r 中两个数据库的 full_join() 中进行比较，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66775134/

26

4

0

文章推荐： python - Pandas newbie - 阅读 excel - 尝试将公式应用于列

文章推荐： r - 对多个 AutoTuning 实例进行基准测试

java - 原始 + ""与 Wrapper.toString(原始)
当需要将原始类型转换为字符串时，例如传递给需要字符串的方法时，基本上有两种选择。以int为例，给出: int i; 我们可以执行以下操作之一: someStringMethod(Integer.to
r - Bootstrapping : Error in statistic(data, 原始，...):未使用的参数(原始)
我有一个位置估计数据库，并且想要计算每月的内核利用率分布。我可以使用 R 中的 adehabitat 包来完成此操作，但我想使用引导数据库中的样本来估计这些值的 95% 置信区间。今天我一直在尝试引导
PowerShell 原始 FTP
我希望使用 FTP 编写大型机作业流。为此，我可以通过 FTP 连接到大型机并运行以下命令: QUOTE TYPE E QUOTE SITE FILETYPE=JES PUT myjob.jcl 那么
WPF:将画笔恢复为默认/原始
我是 WPF 的新手。目前，我正在为名为“LabeledTextbox”的表单元素制作一个用户控件，其中包含一个标签、一个文本框和一个用于错误消息的文本 block 。当使用代码添加错误消息时，我
SignalR(原始)不向客户端发送消息
我们正在使用 SignalR(原始版本，而不是 Core 版本)并注意到一些无法解释的行为。我们的情况如下: 我们有一个通过 GenericCommand() 方法接受命令的集线器(见下文)。这些命
Python请求 - 打印整个http请求(原始)？
使用 requests module 时，有没有办法打印原始 HTTP 请求？我不只想要标题，我想要请求行、标题和内容打印输出。是否可以看到最终由 HTTP 请求构造的内容？最佳答案 Since
你需要知道的三种VMware磁盘类型：原始、厚和精简
与直接访问现有本地磁盘或分区的物理磁盘相比，虚拟磁盘为文件存储提供更好的可移植性和效率。VMware有三种不同的磁盘类型：原始磁盘、厚磁盘和精简磁盘，它们各自分配不同的存储空间。 VMware
unity3d - 预制件(原始)和变体预制件有什么区别？
我有一个用一些颜色着色器等创建的门。前段时间我拖着门，它问我该怎么办时，我选择了变体。但现在我决定选择创建原始预制件和门颜色，或者着色器变成粉红色。这是资源中原始预制件和变体的屏幕截图。粉红色的
forms - Symfony2 form_label 原始
我想呈现原始翻译，所以我决定在 Twig 模板中使用“原始”选项。但它不起作用。例子: {{ form_label(form.sfGuardUserProfile.roules_acceptance)
sqlite - 文字(原始)值作为sqlite中的外键
是否可以在sqlite中制作类似的东西？ FOREIGN KEY(TypeCode, 'ARawValue', IdServeur) REFERENCES OTHERTABLE(TypeCode, T
geolocation - 原始 geoip 数据从何而来？
这个问题是一个更具体问题的一般版本 asked here .但是，这些答案无法使用。问题: geoIP数据的原始来源是什么？许多网站会告诉我我的 IP 在哪里，但它们似乎都在使用来自不到 5 家公
docker - Openshift/原始-基于Wildfly创建图像
对于Openshift:如何基于Wildfly创建docker镜像？这是使用的Dockerfile: FROM openshift/wildfly-101-centos7 # Install exa
Groovy 原始 double 算术
结果是 127 double middle = 255 / 2 虽然这产生了 127.5 Double middle = 255 / 2 同时这也会产生 127.5 double middle = (
delphi - 以编程方式逐个像素地交换小位图(原始)的颜色
在此处下载带有已编译可执行文件的源代码(大小:161 KB(165,230 字节)):http://www.eyeClaxton.com/download/delphi/ColorSwap.zip 原
string - 有没有办法在lua(原始)中定义自动转义字符串？
以下几行是我需要在 lua 中使用的任意正则表达式。 ['\";=] !^(?:(?:[a-z]{3,10}\s+(?:\w{3,7}?://[\w\-\./]*(?::\d+)?)?/[^?#]*(
geolocation - 原始 geoip 数据从何而来？
这个问题是一个更具体问题的一般版本 asked here .但是，这些答案无法使用。问题: geoIP数据的原始来源是什么？许多网站会告诉我我的 IP 在哪里，但它们似乎都在使用来自不到 5 家公
api - 原始.M数组字符串？以相同的结构响应http请求
我正在使用GoLang做服务器api，试图管理和回答所发出的请求。使用net/http和github.com/gorilla/mux。收到请求时，我使用以下结构创建响应: type Response
c++ - 原始 static_vector 实现中可能未定义的行为
tl; dr:我认为我的 static_vector 有未定义的行为，但我找不到它。这个问题是在 Microsoft Visual C++ 17 上。我有这个简单且未完成的 static_vecto
awk - 原始 awk 源代码的旧版本存档？
我试图找到原始 Awk (a/k/a One True Awk) 源代码的“历史”版本。我找到了 Kernighan's occasionally-updated site ，它似乎总是链接到最新版本
Python 原始 IPv6 套接字错误
我在 python 中使用原始 IPv6 套接字时遇到一些问题。我通过以下方式连接: if self._socket != None: # Close out old sock

首页

博学

6Ren·AI

商城

r - 如何保留原始列以在 r 中两个数据库的 full_join() 中进行比较