pandas dataframe的合并实现（append, merge, concat）-6ren

pandas dataframe的合并实现（append, merge, concat）

转载作者：qq735679552 更新时间：2022-09-28 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章pandas dataframe的合并实现（append, merge, concat）由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

创建2个DataFrame:

 
    ? 
   
 
     
       
       
         >>> df1  
         = 
         pd.DataFrame(np.ones(( 
         4 
         ,  
         4 
         )) 
         * 
         1 
         , columns 
         = 
         list 
         ( 
         'DCBA' 
         ), index 
         = 
         list 
         ( 
         '4321' 
         )) 
        
 
         >>> df2  
         = 
         pd.DataFrame(np.ones(( 
         4 
         ,  
         4 
         )) 
         * 
         2 
         , columns 
         = 
         list 
         ( 
         'FEDC' 
         ), index 
         = 
         list 
         ( 
         '6543' 
         )) 
        
 
         >>> df3  
         = 
         pd.DataFrame(np.ones(( 
         4 
         ,  
         4 
         )) 
         * 
         3 
         , columns 
         = 
         list 
         ( 
         'FEBA' 
         ), index 
         = 
         list 
         ( 
         '6521' 
         )) 
        
 
         >>> df1 
        
 
            
         D  C  B  A 
        
 
         4 
         1.0 
         1.0 
         1.0 
         1.0 
        
 
         3 
         1.0 
         1.0 
         1.0 
         1.0 
        
 
         2 
         1.0 
         1.0 
         1.0 
         1.0 
        
 
         1 
         1.0 
         1.0 
         1.0 
         1.0 
        
 
         >>> df2 
        
 
            
         F  E  D  C 
        
 
         6 
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         5 
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         4 
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         3 
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         >>> df3 
        
 
            
         F  E  B  A 
        
 
         6 
         3.0 
         3.0 
         3.0 
         3.0 
        
 
         5 
         3.0 
         3.0 
         3.0 
         3.0 
        
 
         2 
         3.0 
         3.0 
         3.0 
         3.0 
        
 
         1 
         3.0 
         3.0 
         3.0 
         3.0 
        
 
         　　 
        
 
     
 
   

1，concat 。

 
    ? 
   
 
     
       
       
         pd.concat(objs, axis 
         = 
         0 
         , join 
         = 
         'outer' 
         , join_axes 
         = 
         None 
         , ignore_index 
         = 
         False 
         , 
        
 
               
         keys 
         = 
         None 
         , levels 
         = 
         None 
         , names 
         = 
         None 
         , verify_integrity 
         = 
         False 
         , 
        
 
               
         copy 
         = 
         True 
         ) 
        
 
     
 
   

示例:

 
    ? 
   
 
     
       
       
         >>> pd.concat([df1, df2]) 
        
 
            
         A  B  C  D  E  F 
        
 
         4 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         3 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         2 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         1 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         6 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         5 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         4 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         3 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
     
 
   

1.1，axis 。

默认值：axis=0 axis=0：竖方向（index）合并，合并方向index作列表相加，非合并方向columns取并集 axis=1：横方向（columns）合并，合并方向columns作列表相加，非合并方向index取并集 axis=0:

 
    ? 
   
 
     
       
       
         >>> pd.concat([df1, df2], axis 
         = 
         0 
         ) 
        
 
            
         A  B  C  D  E  F 
        
 
         4 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         3 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         2 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         1 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         6 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         5 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         4 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         3 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
         　  
        
 
     
 
   

axis=1:

 
    ? 
   
 
     
       
       
         >>> pd.concat([df1, df2], axis 
         = 
         1 
         ) 
        
 
            
         D  C  B  A  F  E  D  C 
        
 
         1 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN NaN NaN 
        
 
         2 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN NaN NaN 
        
 
         3 
         1.0 
         1.0 
         1.0 
         1.0 
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         4 
         1.0 
         1.0 
         1.0 
         1.0 
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         5 
         NaN NaN NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         6 
         NaN NaN NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
     
 
   

备注：原df中，取并集的行/列名称不能有重复项，即axis=0时columns不能有重复项，axis=1时index不能有重复项:

 
    ? 
   
         >>> df1.columns  
         = 
         list 
         ( 
         'DDBA' 
         ) 
        
         >>> pd.concat([df1, df2], axis 
         = 
         0 
         ) 
        
         ValueError: Plan shapes are  
         not 
         aligned

1.2，join 。

默认值：join=‘outer' 非合并方向的行/列名称：取交集（inner），取并集（outer）。 axis=0时join='inner'，columns取交集:

 
    ? 
   
         >>> pd.concat([df1, df2], axis 
         = 
         0 
         , join 
         = 
         'inner' 
         ) 
        
         D  C 
        
         4 
         1.0 
         1.0 
        
         3 
         1.0 
         1.0 
        
         2 
         1.0 
         1.0 
        
         1 
         1.0 
         1.0 
        
         6 
         2.0 
         2.0 
        
         5 
         2.0 
         2.0 
        
         4 
         2.0 
         2.0 
        
         3 
         2.0 
         2.0

axis=1时join='inner'，index取交集:

 
    ? 
   
 
     
       
       
         >>> pd.concat([df1, df2], axis 
         = 
         1 
         , join 
         = 
         'inner' 
         ) 
        
 
            
         D  C  B  A  F  E  D  C 
        
 
         4 
         1.0 
         1.0 
         1.0 
         1.0 
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         3 
         1.0 
         1.0 
         1.0 
         1.0 
         2.0 
         2.0 
         2.0 
         2.0 
        
 
     
 
   

1.3，join_axes 。

默认值：join_axes=None，取并集合并后，可以设置非合并方向的行/列名称，使用某个df的行/列名称 axis=0时join_axes=[df1.columns]，合并后columns使用df1的:

 
    ? 
   
 
     
       
       
         >>> pd.concat([df1, df2], axis 
         = 
         0 
         , join_axes 
         = 
         [df1.columns]) 
        
 
            
         D  C  B  A 
        
 
         4 
         1.0 
         1.0 
         1.0 
         1.0 
        
 
         3 
         1.0 
         1.0 
         1.0 
         1.0 
        
 
         2 
         1.0 
         1.0 
         1.0 
         1.0 
        
 
         1 
         1.0 
         1.0 
         1.0 
         1.0 
        
 
         6 
         2.0 
         2.0 
         NaN NaN 
        
 
         5 
         2.0 
         2.0 
         NaN NaN 
        
 
         4 
         2.0 
         2.0 
         NaN NaN 
        
 
         3 
         2.0 
         2.0 
         NaN NaN  
        
 
     
 
   

axis=1时axes=[df1.index]，合并后index使用df2的:

 
    ? 
   
 
     
       
       
         pd.concat([df1, df2], axis 
         = 
         1 
         , join_axes 
         = 
         [df1.index]) 
        
 
            
         D  C  B  A  F  E  D  C 
        
 
         4 
         1.0 
         1.0 
         1.0 
         1.0 
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         3 
         1.0 
         1.0 
         1.0 
         1.0 
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         2 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN NaN NaN 
        
 
         1 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN NaN NaN  
        
 
     
 
   

同时设置join和join_axes的，以join_axes为准:

 
    ? 
   
 
     
       
       
         >>> pd.concat([df1, df2], axis 
         = 
         0 
         , join 
         = 
         'inner' 
         , join_axes 
         = 
         [df1.columns]) 
        
 
            
         D  C  B  A 
        
 
         4 
         1.0 
         1.0 
         1.0 
         1.0 
        
 
         3 
         1.0 
         1.0 
         1.0 
         1.0 
        
 
         2 
         1.0 
         1.0 
         1.0 
         1.0 
        
 
         1 
         1.0 
         1.0 
         1.0 
         1.0 
        
 
         6 
         2.0 
         2.0 
         NaN NaN 
        
 
         5 
         2.0 
         2.0 
         NaN NaN 
        
 
         4 
         2.0 
         2.0 
         NaN NaN 
        
 
         3 
         2.0 
         2.0 
         NaN NaN  
        
 
     
 
   

1.4，ignore_index 。

默认值：ignore_index=False 。

合并方向是否忽略原行/列名称，而采用系统默认的索引，即从0开始的int.

axis=0时ignore_index=True，index采用系统默认索引:

 
    ? 
   
 
     
       
       
         >>> pd.concat([df1, df2], axis 
         = 
         0 
         , ignore_index 
         = 
         True 
         ) 
        
 
            
         A  B  C  D  E  F 
        
 
         0 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         1 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         2 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         3 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         4 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         5 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         6 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         7 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
     
 
   

axis=1时ignore_index=True，columns采用系统默认索引:

 
    ? 
   
 
     
       
       
         >>> pd.concat([df1, df2], axis 
         = 
         1 
         , ignore_index 
         = 
         True 
         ) 
        
 
            
         0  
         1  
         2  
         3  
         4  
         5  
         6  
         7 
        
 
         1 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN NaN NaN 
        
 
         2 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN NaN NaN 
        
 
         3 
         1.0 
         1.0 
         1.0 
         1.0 
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         4 
         1.0 
         1.0 
         1.0 
         1.0 
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         5 
         NaN NaN NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         6 
         NaN NaN NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
     
 
   

1.5，keys 。

默认值：keys=None 。

可以加一层标签，标识行/列名称属于原来哪个df.

axis=0时设置keys:

 
    ? 
   
 
     
       
       
         >>> pd.concat([df1, df2], axis 
         = 
         0 
         , keys 
         = 
         [ 
         'x' 
         ,  
         'y' 
         ]) 
        
 
             
         A  B  C  D  E  F 
        
 
         x  
         4 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
           
         3 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
           
         2 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
           
         1 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         y  
         6 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
           
         5 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
           
         4 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
           
         3 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
     
 
   

axis=1时设置keys:

 
    ? 
   
 
     
       
       
         >>> pd.concat([df1, df2], axis 
         = 
         1 
         , keys 
         = 
         [ 
         'x' 
         ,  
         'y' 
         ]) 
        
 
             
         x          y         
        
 
             
         D  C  B  A  F  E  D  C 
        
 
         1 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN NaN NaN 
        
 
         2 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN NaN NaN 
        
 
         3 
         1.0 
         1.0 
         1.0 
         1.0 
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         4 
         1.0 
         1.0 
         1.0 
         1.0 
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         5 
         NaN NaN NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         6 
         NaN NaN NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
         　  
        
 
     
 
   

也可以传字典取代keys:

 
    ? 
   
 
     
       
       
         >>> pd.concat({ 
         'x' 
         : df1,  
         'y' 
         : df2}, axis 
         = 
         0 
         ) 
        
 
             
         A  B  C  D  E  F 
        
 
         x  
         4 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
           
         3 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
           
         2 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
           
         1 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         y  
         6 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
           
         5 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
           
         4 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
           
         3 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
     
 
   

1.6，levels 。

默认值：levels=None 。

明确行/列名称取值范围:

 
    ? 
   
 
     
       
       
         >>> pd.concat([df1, df2], axis 
         = 
         0 
         , keys 
         = 
         [ 
         'x' 
         ,  
         'y' 
         ], levels 
         = 
         [[ 
         'x' 
         ,  
         'y' 
         ,  
         'z' 
         ,  
         'w' 
         ]]) 
        
 
         >>> df.index.levels 
        
 
         [[ 
         'x' 
         ,  
         'y' 
         ,  
         'z' 
         ,  
         'w' 
         ], [ 
         '1' 
         ,  
         '2' 
         ,  
         '3' 
         ,  
         '4' 
         ,  
         '5' 
         ,  
         '6' 
         ]] 
        
 
     
 
   

1.7，sort 。

默认值：sort=True，提示新版本会设置默认为False，并取消该参数。

但0.22.0中虽然取消了，还是设置为True 。

非合并方向的行/列名称是否排序。例如1.1中默认axis=0时columns进行了排序，axis=1时index进行了排序.

axis=0时sort=False，columns不作排序:

 
    ? 
   
 
     
       
       
         >>> pd.concat([df1, df2], axis 
         = 
         0 
         , sort 
         = 
         False 
         ) 
        
 
            
         D  C  B  A  F  E 
        
 
         4 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         3 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         2 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         1 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         6 
         2.0 
         2.0 
         NaN NaN  
         2.0 
         2.0 
        
 
         5 
         2.0 
         2.0 
         NaN NaN  
         2.0 
         2.0 
        
 
         4 
         2.0 
         2.0 
         NaN NaN  
         2.0 
         2.0 
        
 
         3 
         2.0 
         2.0 
         NaN NaN  
         2.0 
         2.0 
        
 
     
 
   

axis=1时sort=False，index不作排序:

 
    ? 
   
 
     
       
       
         >>> pd.concat([df1, df2], axis 
         = 
         1 
         , sort 
         = 
         False 
         ) 
        
 
            
         D  C  B  A  F  E  D  C 
        
 
         4 
         1.0 
         1.0 
         1.0 
         1.0 
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         3 
         1.0 
         1.0 
         1.0 
         1.0 
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         2 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN NaN NaN 
        
 
         1 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN NaN NaN 
        
 
         6 
         NaN NaN NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         5 
         NaN NaN NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
     
 
   

1.8，concat多个DataFrame 。

 
    ? 
   
 
     
       
       
         >>> pd.concat([df1, df2, df3], sort 
         = 
         False 
         , join_axes 
         = 
         [df1.columns]) 
        
 
            
         D  C  B  A 
        
 
         4 
         1.0 
         1.0 
         1.0 
         1.0 
        
 
         3 
         1.0 
         1.0 
         1.0 
         1.0 
        
 
         2 
         1.0 
         1.0 
         1.0 
         1.0 
        
 
         1 
         1.0 
         1.0 
         1.0 
         1.0 
        
 
         6 
         2.0 
         2.0 
         NaN NaN 
        
 
         5 
         2.0 
         2.0 
         NaN NaN 
        
 
         4 
         2.0 
         2.0 
         NaN NaN 
        
 
         3 
         2.0 
         2.0 
         NaN NaN 
        
 
         6 
         NaN NaN  
         3.0 
         3.0 
        
 
         5 
         NaN NaN  
         3.0 
         3.0 
        
 
         2 
         NaN NaN  
         3.0 
         3.0 
        
 
         1 
         NaN NaN  
         3.0 
         3.0 
        
 
     
 
   

2，append 。

 
    ? 
   
         append( 
         self 
         , other, ignore_index 
         = 
         False 
         , verify_integrity 
         = 
         False 
         )

竖方向合并df，没有axis属性。

不会就地修改，而是会创建副本。

示例:

 
    ? 
   
 
     
       
       
         >>> df1.append(df2)   
         # 相当于pd.concat([df1, df2]) 
        
 
            
         A  B  C  D  E  F 
        
 
         4 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         3 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         2 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         1 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         6 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         5 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         4 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         3 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
         　　  
        
 
     
 
   

2.1，ignore_index属性。

 
    ? 
   
 
     
       
       
         >>> df1.append(df2, ignore_index 
         = 
         True 
         ) 
        
 
            
         A  B  C  D  E  F 
        
 
         0 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         1 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         2 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         3 
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         4 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         5 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         6 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         7 
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
     
 
   

2.2，append多个DataFrame 。

和concat相同，append也支持append多个DataFrame 。

 
    ? 
   
 
     
       
       
         >>> df1.append([df2, df3], ignore_index 
         = 
         True 
         ) 
        
 
             
         A  B  C  D  E  F 
        
 
         0  
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         1  
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         2  
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         3  
         1.0 
         1.0 
         1.0 
         1.0 
         NaN NaN 
        
 
         4  
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         5  
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         6  
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         7  
         NaN NaN  
         2.0 
         2.0 
         2.0 
         2.0 
        
 
         8  
         3.0 
         3.0 
         NaN NaN  
         3.0 
         3.0 
        
 
         9  
         3.0 
         3.0 
         NaN NaN  
         3.0 
         3.0 
        
 
         10 
         3.0 
         3.0 
         NaN NaN  
         3.0 
         3.0 
        
 
         11 
         3.0 
         3.0 
         NaN NaN  
         3.0 
         3.0 
        
 
     
 
   

3，merge 。

 
    ? 
   
 
     
       
       
         pd.merge(left, right, how 
         = 
         'inner' 
         , on 
         = 
         None 
         , left_on 
         = 
         None 
         , right_on 
         = 
         None 
         , 
        
 
               
         left_index 
         = 
         False 
         , right_index 
         = 
         False 
         , sort 
         = 
         True 
         , 
        
 
               
         suffixes 
         = 
         ( 
         '_x' 
         ,  
         '_y' 
         ), copy 
         = 
         True 
         , indicator 
         = 
         False 
         , 
        
 
               
         validate 
         = 
         None 
         )  
        
 
     
 
   

示例：　　。

 
    ? 
   
 
     
       
       
         >>> left  
         = 
         pd.DataFrame({ 
         'A' 
         : [ 
         'a0' 
         ,  
         'a1' 
         ,  
         'a2' 
         ,  
         'a3' 
         ], 
        
 
                       
         'B' 
         : [ 
         'b0' 
         ,  
         'b1' 
         ,  
         'b2' 
         ,  
         'b3' 
         ], 
        
 
                       
         'k1' 
         : [ 
         'x' 
         ,  
         'x' 
         ,  
         'y' 
         ,  
         'y' 
         ]}) 
        
 
         >>> right  
         = 
         pd.DataFrame({ 
         'C' 
         : [ 
         'c1' 
         ,  
         'c2' 
         ,  
         'c3' 
         ,  
         'c4' 
         ], 
        
 
                       
         'D' 
         : [ 
         'd1' 
         ,  
         'd2' 
         ,  
         'd3' 
         ,  
         'd4' 
         ], 
        
 
                       
         'k1' 
         : [ 
         'y' 
         ,  
         'y' 
         ,  
         'z' 
         ,  
         'z' 
         ]}) 
        
 
         >>> left 
        
 
            
         A  B k1 
        
 
         0 
         a0 b0 x 
        
 
         1 
         a1 b1 x 
        
 
         2 
         a2 b2 y 
        
 
         3 
         a3 b3 y 
        
 
         >>> right 
        
 
            
         C  D k1 
        
 
         0 
         c1 d1 y 
        
 
         1 
         c2 d2 y 
        
 
         2 
         c3 d3 z 
        
 
         3 
         c4 d4 z  
        
 
     
 
   

对df1和df2进行merge:

 
    ? 
   
         >>> pd.merge(left, right) 
        
         A  B k1 C  D 
        
         0 
         a2 b2 y c1 d1 
        
         1 
         a2 b2 y c2 d2 
        
         2 
         a3 b3 y c1 d1 
        
         3 
         a3 b3 y c2 d2

可以看到只有df1和df2的key1=y的行保留了下来，即默认合并后只保留有共同列项并且值相等行（即交集）.

本例中left和right的k1=y分别有2个，最终构成了2*2=4行.

如果没有共同列会报错:

 
    ? 
   
         >>>  
         del 
         left[ 
         'k1' 
         ] 
        
         >>> pd.merge(left, right) 
        
         pandas.errors.MergeError: No common columns to perform merge on

3.1，on属性。

新增一个共同列，但没有相等的值，发现合并返回是空列表，因为默认只保留所有共同列都相等的行:

 
    ? 
   
         >>> left[ 
         'k2' 
         ]  
         = 
         list 
         ( 
         '1234' 
         ) 
        
         >>> right[ 
         'k2' 
         ]  
         = 
         list 
         ( 
         '5678' 
         ) 
        
         >>> pd.merge(left, right) 
        
         Empty DataFrame 
        
         Columns: [B, A, k1, k2, F, E] 
        
         Index: []

可以指定on，设定合并基准列，就可以根据k1进行合并，并且left和right共同列k2会同时变换名称后保留下来:

 
    ? 
   
         >>> pd.merge(left, right, on 
         = 
         'k1' 
         ) 
        
         A  B k1 k2_x  C  D  k2_y 
        
         0 
         a2 b2 y    
         3  
         c1 d1   
         5 
        
         1 
         a2 b2 y    
         3  
         c2 d2   
         6 
        
         2 
         a3 b3 y    
         4  
         c1 d1   
         5 
        
         3 
         a3 b3 y    
         4  
         c2 d2   
         6

默认值：on的默认值是所有共同列，本例为：on=['k1', 'k2'] 。

3.2，how属性。

how取值范围：'inner', 'outer', 'left', 'right' 。

默认值：how='inner' 。

‘inner'：共同列的值必须完全相等:

 
    ? 
   
         >>> pd.merge(left, right, on 
         = 
         'k1' 
         , how 
         = 
         'inner' 
         ) 
        
         A  B k1 k2_x  C  D  k2_y 
        
         0 
         a2 b2 y    
         3  
         c1 d1   
         5 
        
         1 
         a2 b2 y    
         3  
         c2 d2   
         6 
        
         2 
         a3 b3 y    
         4  
         c1 d1   
         5 
        
         3 
         a3 b3 y    
         4  
         c2 d2   
         6

‘outer'：共同列的值都会保留，left或right在共同列上的差集，会对它们的缺失列项的值赋上NaN:

 
    ? 
   
         >>> pd.merge(left, right, on 
         = 
         'k1' 
         , how 
         = 
         'outer' 
         ) 
        
         A  B k1  k2_x C  D k2_y 
        
         0  
         a0  b0 x   
         1 
         NaN NaN NaN 
        
         1  
         a1  b1 x   
         2 
         NaN NaN NaN 
        
         2  
         a2  b2 y   
         3  
         c1  d1   
         5 
        
         3  
         a2  b2 y   
         3  
         c2  d2   
         6 
        
         4  
         a3  b3 y   
         4  
         c1  d1   
         5 
        
         5  
         a3  b3 y   
         4  
         c2  d2   
         6 
        
         6 
         NaN NaN z NaN  c3  d3   
         7 
        
         7 
         NaN NaN z NaN  c4  d4   
         8

‘left'：根据左边的DataFrame确定共同列的保留值，右边缺失列项的值赋上NaN:

 
    ? 
   
         pd.merge(left, right, on 
         = 
         'k1' 
         , how 
         = 
         'left' 
         ) 
        
         A  B k1 k2_x C  D  k2_y 
        
         0 
         a0 b0 x   
         1 
         NaN NaN NaN 
        
         1 
         a1 b1 x   
         2 
         NaN NaN NaN 
        
         2 
         a2 b2 y   
         3  
         c1  d1   
         5 
        
         3 
         a2 b2 y   
         3  
         c2  d2   
         6 
        
         4 
         a3 b3 y   
         4  
         c1  d1   
         5 
        
         5 
         a3 b3 y   
         4  
         c2  d2   
         6

‘right'：根据右边的DataFrame确定共同列的保留值，左边缺失列项的值赋上NaN:

 
    ? 
   
         >>> pd.merge(left, right, on 
         = 
         'k1' 
         , how 
         = 
         'right' 
         ) 
        
         A  B k1 k2_x C  D  k2_y 
        
         0  
         a2  b2 y   
         3 
         c1 d1   
         5 
        
         1  
         a3  b3 y   
         4 
         c1 d1   
         5 
        
         2  
         a2  b2 y   
         3 
         c2 d2   
         6 
        
         3  
         a3  b3 y   
         4 
         c2 d2   
         6 
        
         4 
         NaN NaN z NaN c3 d3   
         7 
        
         5 
         NaN NaN z NaN c4 d4   
         8

3.3，indicator 。

默认值：indicator=False，不显示合并方式。

设置True表示显示合并方式，即left / right / both:

 
    ? 
   
 
     
       
       
         >>> pd.merge(left, right, on 
         = 
         'k1' 
         , how 
         = 
         'outer' 
         , indicator 
         = 
         True 
         ) 
        
 
             
         A  B k1 k2_x C  D  k2_y   _merge 
        
 
         0  
         a0  b0 x   
         1 
         NaN NaN NaN  left_only 
        
 
         1  
         a1  b1 x   
         2 
         NaN NaN NaN  left_only 
        
 
         2  
         a2  b2 y   
         3  
         c1  d1   
         5    
         both 
        
 
         3  
         a2  b2 y   
         3  
         c2  d2   
         6    
         both 
        
 
         4  
         a3  b3 y   
         4  
         c1  d1   
         5    
         both 
        
 
         5  
         a3  b3 y   
         4  
         c2  d2   
         6    
         both 
        
 
         6 
         NaN NaN z NaN  c3  d3   
         7 
         right_only 
        
 
         7 
         NaN NaN z NaN  c4  d4   
         8 
         right_only 
        
 
     
 
   

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我.

原文链接：https://www.cnblogs.com/guxh/p/9451532.html 。

最后此篇关于pandas dataframe的合并实现（append, merge, concat）的文章就讲到这里了,如果你想了解更多关于pandas dataframe的合并实现（append, merge, concat）的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： c语言函数栈帧的创建和销毁过程详解

文章推荐： iptables做策略屏蔽QQ与MSN

文章推荐： C++模拟实现list功能

文章推荐：基于Linux网关服务器squid配置过程详解

list - 合并(合并)不同长度的向量
我有几个长度不等的 vector ，我想对其进行cbind。我将 vector 放入列表中，并尝试结合使用do.call(cbind, ...): nm <- list(1:8, 3:8, 1:5)
java - 合并(合并)2 个 JSONObjects 的最佳方式是什么？
合并(合并)两个 JSONObjects 的最佳方式是什么？ JSONObject o1 = { "one": "1", "two": "2", "three": "3" }
c# - 合并(合并？)并简化/减少 GeoJson 的 DbGeometry 记录
我在一个表中有许多空间实体，其中有一个名为 Boundaries 的 geometry 字段。我想生成一个具有简化形状/几何图形的 GeoJson 文件。这是我的第一次尝试: var entitie
postgresql 合并
谁能说出为什么这个选择返回 3.0 而不是 3.5: SELECT coalesce(1.0*(7/2),0) as foo 这个返回 3: SELECT coalesce(7/2,0) as foo
XSLT 合并/合并节点
首先抱歉，也许这个问题已经提出，但我找不到任何可以帮助我的东西，可能是因为我对 XSLT 缺乏了解。我有以下 XML: 0 OK
svn - 追溯复制/合并
有时用户会使用 Windows 资源管理器复制文件并在他们应该执行 svn 存储库级别的复制或合并时提交它们。因此，SVN 没有正确跟踪这些变化。一旦我发现这一点，损坏显然已经完成，并且可能已经对相关
excel - 合并/堆叠没有VBA的excel列范围定义
我想组合/堆叠 2 个不同列的值并获得唯一值。如果范围相邻，则可以正常工作。例如: =UNIQUE(FILTERXML(""&SUBSTITUTE(TEXTJOIN(",",TRUE,TRANSPO
.net - 如何使用iTextSharp将PDF与可填写的表单字段合并/合并？
使用iTextSharp，如何将多个PDF合并为一个PDF，而又不丢失每个PDF中的“表单字段”及其属性？ (我希望有一个使用来自数据库的流的示例，但文件系统也可以) 我发现this code可以正常
r - 合并/加入优先考虑非缺失值
是否有一个合并函数可以优先考虑公共(public)变量中的非缺失值？考虑以下示例。首先，我们生成两个 data.frames，它们具有相同的 ID，但在特定变量上有互补的缺失值: set.seed
tfs - 合并/分支策略
我们正在尝试实现 ALM Rangers 在最新的 Visual Studio TFS Branching and Merging Guide 中描述的“基本双分支计划”。 .从指导: The bas
file - 合并/附加文件并在unix中重新编号第一列
我在不同目录(3个不同名称)中有很多(3个只是一个例子)文本文件，如下所示: 目录:A，文件名:run.txt 格式:txt制表符分隔 ; file one 10 0.2 0.5 0.
sql - “合并”样式操作与文字值？
我有一张包含学生等级关系的表： Student Grade StartDate EndDate 1 1 09/01/2009 NULL 2
Symfony2 Doctrine 合并
我在学习 https://www.doctrine-project.org/projects/doctrine-orm/en/2.6/reference/working-with-associatio
移动的源代码文件的 SVN 合并
我觉得我有世界上最简单的 SVN 用例: 我有一个文件，Test.java在 trunk SVN的。我分行trunk至 dev-branch . 我搬家Test.java进入 com/mycompa
r - 合并/合并具有相同名称但数据不完整的列
我有两个数据框，其中一些列名称相同，而另一些列名称不同。数据框看起来像这样: df1 ID hello world hockey soccer 1 1 NA NA
elasticsearch - 合并/展平子aggs到主agg
Elasticsearch 中是否缺少以扁平化形式(多个子/子aggs)返回结果的方法？例如，当前我正在尝试获取所有产品类型及其状态(在线/离线)。这就是我最终得到的: aggs [ { key:
Scala:合并 map
如何合并如下所示的 map : Map1 = Map(1 -> Class1(1), 2 -> Class1(2)) Map2 = Map(2 -> Class2(1), 3 -> Class2(2)
hadoop - 执行sqoop时发生错误-合并
我试图通过从netezza服务器导入数据来合并两个数据集。以下是数据集，其数字为，ID为，字母为，名称为: 下表都是使用命令从netezza导入的: sqoop import --connect n
php - 合并、输出两个数组的项目并突出显示各自的项目
我有两个数组 $array1 = array('first', 'second', 'third', 'fourth'); $array2 = array('first', 'third', 'fou
sql - 合并 - 仅在值发生更改时更新
我正在 SQL Server 中运行合并。在我的更新中，我只想在值发生更改时更新该行。有一个版本行在每次更新时都会递增。下面是一个例子: MERGE Employee as tgt USING (SE

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

pandas dataframe的合并实现（append, merge, concat）