r - 如何按组连接两个数据框？-6ren

r - 如何按组连接两个数据框？

转载作者：行者123 更新时间：2023-12-04 11:12:03

我有一个数据框 (DF)，其中每个 CompanyID 都有 2006 年和 2007 年在那里工作的董事以及 2 个关于他们的信息(性别和年龄)。

DF <- 
CompanyID  Name    Country  ISIN     Director_2006 Gender_2006 Yearold_2006  Director_2007 Gender_2007 Yearold_2007   
25830      BANKxxx Austria  AT000504 11734844255        M            54        11734844255        M           55           
25830      BANKxxx Austria  AT000504 187836811559       F            45        5524344997         F           NA           
25830      BANKxxx Austria  AT000504 5524344997         F            NA        5524354997         M           39           
25830      BANKxxx Austria  AT000504 5524354997         M            38        5742347684         M           38           
25830      BANKxxx Austria  AT000504 6613115791         M            41        40160443378        M           30           
12339      BANKyyy Belgium  AT034003 9855321789         M            44        9855321789         M           45           
12339      BANKyyy Belgium  AT034003 277520199          M            NA        23779351           F           34

我有第二个数据框 (DF2)，其中每个 DirectorID(第一列)都有不同年份(第二列)的经验年数(第三列)。

DF2 <- 
  DirectorID     Year     YearsExperience
  11734844255    2006        0.4
  11734844255    2007        1.4
  187836811559   2006        1.5  
  5524344997     2006        2.4
  5524344997     2007        3.4
  5524354997     2006        1.8
  5524354997     2007        2.8  
  5742347684     2007        3.5
  40160443378    2007        4.3
  9855321789     2005        2.6
  9855321789     2006        3.6
  9855321789     2007        4.6
  277520199      2006        1.6
  23779351       2007        3.2
  55443322       2005        2.5
  55443322       2006        3.5

我想加入两个数据框的信息，创建一个新列，其中包含每家公司的每位董事在这两年(2006 年和 2007 年)的经验年限，即 Experience_2006 和 Experience_2007 列。

因此，我的预期输出如下:

DF_final <- 
 CompanyID   Name    Country ISIN       Director_2006  Gender_2006 YearBirth_2006  Experience_2006  Director_2007 Gender_2007 YearBirth_2007 Experience_2007  
 25830      BANKxxx  Austria  AT000504  11734844255          M        54                 0.4         11734844255      M           55                 1.4
 25830      BANKxxx  Austria  AT000504  187836811559         F        45                 1.5         5524344997       F           NA                 3.4
 25830      BANKxxx  Austria  AT000504  5524344997           F        NA                 2.4         5524354997       M           39                 2.8
 25830      BANKxxx  Austria  AT000504  5524354997           M        38                 1.8         5742347684       M           38                 3.5
 25830      BANKxxx  Austria  AT000504  6613115791           M        41                 NA          40160443378      M           30                 4.3
 12339      BANKyyy  Belgium  AT034003  9855321789           M        44                 3.6         9855321789       M           45                 4.6
 12339      BANKyyy  Belgium  AT034003  277520199            M        NA                 1.6         23779351         F           34                 3.2

拜托，有人可以告诉我吗？谢谢。

数据

DF <- read.table(text = 
               "CompanyID   Name    Country ISIN     Director_2006  Gender_2006 YearBirth_2006  Director_2007 Gender_2007 YearBirth_2007   
             25830      BANKxxx     Austria  AT000504  11734844255     M        54              11734844255     M           55           
             25830      BANKxxx     Austria  AT000504  187836811559    F        45              5524344997      F           NA           
             25830      BANKxxx     Austria  AT000504    5524344997    F        NA              5524354997      M           39           
             25830      BANKxxx     Austria  AT000504    5524354997    M        38              5742347684      M           38           
             25830      BANKxxx     Austria  AT000504    6613115791    M        41              40160443378     M           30           
             12339      BANKyyy     Belgium  AT034003    9855321789    M        44              9855321789      M           45           
             12339      BANKyyy     Belgium  AT034003     277520199    M        NA                23779351      F           34",
             header = T, stringsAsFactors = F)

DF2 <- read.table(text =
            "DirectorID     Year     YearsExperience
             11734844255    2006        0.4
             11734844255    2007        1.4
             187836811559   2006        1.5  
             5524344997     2006        2.4
             5524344997     2007        3.4
             5524354997     2006        1.8
             5524354997     2007        2.8  
             5742347684     2007        3.5
             40160443378    2007        4.3
             9855321789     2005        2.6
             9855321789     2006        3.6
             9855321789     2007        4.6
             277520199      2006        1.6
             23779351       2007        3.2
             55443322       2005        2.5
             55443322       2006        3.5",
            header = T, stringsAsFactors = F)

最佳答案

为了完成，我使用了 dplyr 和 'tidyr' 并与其他函数进行了基准测试。

更新:我在没有使用过滤器和选择函数 myfun4() 的情况下制作了另一个版本的@Jimbou 答案。这是我的基准测试中最快的加入。拉尔夫的答案现在排在第二位。我的初始版本 (myfun3()) 排在第三位。

 microbenchmark::microbenchmark(myfun1(),myfun2(),myfun3(),myfun4())
Unit: milliseconds
     expr     min       lq      mean   median       uq     max neval
 myfun1() 23.1527 28.36865 31.322275 31.53225 33.69430 52.7319   100
 myfun2()  5.2549  5.78445  8.241408  8.25995  9.63870 14.4018   100
 myfun3()  7.9534 10.15115 11.976498 11.40415 13.66255 20.9362   100
 myfun4()  2.9676  3.40105  5.032863  4.87115  5.56065 19.0217   100

函数代码:

myfun4<-function(){
colnames(DF2)[1]='Director_2007'
DF_final<-left_join(DF,DF2[DF2$Year==2006,-2],by='Director_2007') %>% 
              left_join(DF2[DF2$Year==2007,-2],by='Director_2007')
n=dim(DF_final)[2]
colnames(DF_final)[(n-1):n]=paste0('YearsExperience_',2006:2007)
}

myfun3<-function(){
DF2_spread<-tidyr::spread(DF2,Year,YearsExperience)[,-2]
colnames(DF2_spread)=c('Director_2007',paste0('Experience_',colnames(df2_spread)[2:3]))
DF_final<-dplyr::left_join(DF,DF2_spread,by='Director_2007')
}

myfun2<-function() {
  DF1 <- reshape(DF, direction = "long", varying = names(DF)[5:10], sep = "_", timevar = "Year")
DF3 <- merge(DF1, DF2, all.x = TRUE, by.x = c("Director" , "Year"), by.y = c("DirectorID", "Year"))
DF_final<-reshape(DF3, direction = "wide", v.names = names(DF3)[c(1,7,8,10)], timevar = "Year", sep = "_")
}

myfun1<-function(){
  DF %>% 
  left_join(DF2 %>% 
              filter(Year == 2006) %>% 
              select(DirectorID,YearsExperience_2016=YearsExperience), 
            by=c("Director_2006" =  "DirectorID")) %>% 
  left_join(DF2 %>% 
              filter(Year == 2007) %>% 
              select(DirectorID,YearsExperience_2017=YearsExperience), 
            by=c("Director_2007" =  "DirectorID")) 
}

关于r - 如何按组连接两个数据框？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50470621/

文章推荐： r - 仅在 ggplot2 重叠时闪避或抖动

文章推荐： c - Linux 中的 "pinned"页如何呈现(或实际上是 "pin")自身

python - 连接/连接/合并两个缺失一列的数据框
我知道这个问题可能已经被问过，但我检查了所有这些，我认为我的情况有所不同(请友善)。所以我有两个数据集，第一个是测试数据集，第二个是我保存在数据框中的预测(预测值，这就是没有数据列的原因)。我想合并两
Python - 如何组合/连接/连接 pandas 系列变量忽略空变量
在 .loc 方法的帮助下，我根据同一数据框中另一列中的值来识别 Panda 数据框中某一列中的值。下面给出了代码片段供您引用: var1 = output_df['Player'].loc[out
sftp - 服务器拒绝 SFTP 连接，但它会监听 FTP 连接
当我在 Windows 中使用 WinSCP 通过 Ubuntu 连接到 VMware 时，它提示: The server rejected SFTP connection, but it lis
java - 连接 3G 与 Wi-Fi 连接
我正在开发一个使用 xml web 服务的 android 应用程序。在 wi-fi 网络中连接时工作正常，但在 3G 网络中连接时失败(未找到 http 404)。这不仅仅发生在设备中。为了进行测
objective-c - 连接 Action 有效。连接 socket 不
我有一个XIB包含我的控件的文件，加载到 Interface Builder(Snow Leopard 上的 Xcode 4.0.2)中。文件的所有者被设置为 someClassController
mysql - 用户可以通过 PDO 连接，但不能通过 C mysql_real_connect 连接
我在本地计算机上管理 MySQL 数据库，并通过运行以下程序通过 C 连接到它: #include #include #include int main(int argc, char** arg
java - Spring 和 MySQL 连接(不断创建新连接而不是使用 hibernate 连接)
我不知道为什么每次有人访问我网站上的页面时，都会打开一个与数据库的新连接。最终我到达了大约 300 并收到错误并且页面不再加载。我认为它应该工作的方式是，我将 maxIdle 设置为 30，这意味着
python - 使用 Python 3 连接/连接 txt 文件中的行
希望清理 NMEA GPS 中的 .txt 文件。我当前的代码如下。 deletes = ['$GPGGA', '$GPGSA', '$GPGSV', '$PSRF156', ] searchquer
c# - 通过 C#.Net 创建/连接 VPN 连接
我有一个 URL、一个用户名和一个密码。我想在 C# .Net WinForms 中建立 VPN 连接。你能告诉我从哪里开始吗？任何第三方 API？代码示例将受到高度赞赏... 最佳答案您可以像
c++ - 将字符串 vector 连接(连接)到字符缓冲区，零字节作为分隔符/终止符
有没有更好的方法将字符串 vector 转换为字符 vector ，字符串之间的终止符为零。因此，如果我有一个包含以下字符串的 vector "test","my","string"，那么我想接收一
android - 在 Android Instrumented 测试中模拟无 Internet 连接/慢速 Internet 连接
我正在编写一个库，它不断检查 android 设备的连接，并在设备连接、断开连接或互联网连接变慢时给出回调。 https://github.com/muddassir235/connection_ch
Mysql 数据库无法使用 "loclhost"连接，但可以使用 "127.0.0.1"Centos 7 (Cloudlinux) 连接
我的操作系统:Centos 7 + CLOUDLINUX 7.7当我尝试从服务器登录Mysql时 [root@server3 ~]# Mysql -u root -h localhost -P 330
ruby-on-rails - 无法打开到本地主机的 TCP 连接:9200(连接被拒绝 - 连接(2)用于 "localhost"端口 9200)(Faraday::ConnectionFailed)
我收到错误:Puma 发现此错误:无法打开到本地主机的 TCP 连接:9200(连接被拒绝 - 连接(2)用于“本地主机”端口 9200)(Faraday::ConnectionFailed)在我的
ruby-on-rails - ActionView::Template::Error(无法打开到本地主机的 TCP 连接:9292(连接被拒绝 - 连接(2)用于 "localhost"端口 9292))
请给我一些解决以下错误的方法。这是一个聊天应用....代码和错误如下:: conversations_controller.rb def create if Conversation.bet
Excel 连接
我想将两个单元格中的数据连接到一个单元格中。我还想只组合那些具有相同 ID 的单元格。任务 ID 名称 4355.2 参与者 4355.2 领袖 4462.1 在线 4462.1 快速 4597.1
TSQL 连接
我经常需要连接 TSQL 中的字段... 使用“+”运算符时 TSQL 强制您处理的两个问题是 Data Type Precedence和 NULL 值。使用数据类型优先级，问题是转换错误。 1)
Facebook 连接
有没有在 iPad 或 iPhone 应用程序中使用 Facebook 连接。这个想法是登录这个应用程序，然后能够看到我的哪些 facebook 用户也在使用该应用程序及其功能。最佳答案是的。
连接/打印字符串文字
我在连接或打印字符串时遇到了一个奇怪的问题。我有一个 char * ，可以将其设置为字符串文字的几个值之一。 char *myStrLiteral = NULL; ... if(blah) myS
Xquery 连接
对于以下数据 - let $x := "Yahooooo !!!! Select one number - " let $y := 1 2 3 4 5 6 7 我想得到
Perl 连接
我正在看 UDEMY for perl 的培训视频，但是视频不清晰，看起来有错误。培训展示了如何使用以下示例连接 2 个字符串: #!usr/bin/perl print $str = "Hi";

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - 如何按组连接两个数据框？