- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章pandas中DataFrame数据合并连接(merge、join、concat)由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
pandas作者wes mckinney 在【python for data analysis】中对pandas的方方面面都有了一个权威简明的入门级的介绍,但在实际使用过程中,我发现书中的内容还只是冰山一角。谈到pandas数据的行更新、表合并等操作,一般用到的方法有concat、join、merge。但这三种方法对于很多新手来说,都不太好分清使用的场合与用途。今天就pandas官网中关于数据合并和重述的章节做个使用方法的总结.
文中代码块主要有pandas官网教程提供.
concat函数是在pandas底下的方法,可以将数据根据不同的轴作简单的融合 。
1
2
|
pd.concat(objs, axis=0, join=
'outer'
, join_axes=none, ignore_index=
false
,
keys=none, levels=none, names=none, verify_integrity=
false
)
|
参数说明 。
objs: series,dataframe或者是panel构成的序列lsit 。
axis: 需要合并链接的轴,0是行,1是列 。
join:连接的方式 inner,或者outer 。
其他一些参数不常用,用的时候再补上说明.
1
2
3
4
|
# 现将表构成list,然后在作为concat的输入
in [4]: frames = [df1, df2, df3]
in [5]: result = pd.concat(frames)
|
要在相接的时候在加上一个层次的key来识别数据源自于哪张表,可以增加key参数 。
1
|
in [6]: result = pd.concat(frames, keys=[
'x'
,
'y'
,
'z'
])
|
效果如下 。
当axis = 1的时候,concat就是行对齐,然后将不同列名称的两张表合并 。
1
|
in [9]: result = pd.concat([df1, df4], axis=1)
|
加上join参数的属性,如果为'inner'得到的是两表的交集,如果是outer,得到的是两表的并集.
1
|
in [10]: result = pd.concat([df1, df4], axis=1, join=
'inner'
)
|
如果有join_axes的参数传入,可以指定根据那个轴来对齐数据 。
例如根据df1表对齐数据,就会保留指定的df1表的轴,然后将df4的表与之拼接 。
1
|
in [11]: result = pd.concat([df1, df4], axis=1, join_axes=[df1.index])
|
1.3 。
append是series和dataframe的方法,使用它就是默认沿着列进行凭借(axis = 0,列对齐) 。
1
|
in [12]: result = df1.append(df2)
|
如果两个表的index都没有实际含义,使用ignore_index参数,置true,合并的两个表就睡根据列字段对齐,然后合并。最后再重新整理一个新的index。 。
前面提到的keys参数可以用来给合并后的表增加key来区分不同的表数据来源 。
1
|
in [27]: result = pd.concat(frames, keys=[
'x'
,
'y'
,
'z'
])
|
1
2
3
|
in [28]: pieces = {
'x'
: df1,
'y'
: df2,
'z'
: df3}
in [29]: result = pd.concat(pieces)
|
append方法可以将 series 和 字典就够的数据作为dataframe的新一行插入。 。
1
2
3
|
in [34]: s2 = pd.series([
'x0'
,
'x1'
,
'x2'
,
'x3'
], index=[
'a'
,
'b'
,
'c'
,
'd'
])
in [35]: result = df1.append(s2, ignore_index=
true
)
|
如果遇到两张表的列字段本来就不一样,但又想将两个表合并,其中无效的值用nan来表示。那么可以使用ignore_index来实现.
1 。
1
2
3
4
5
|
in [36]: dicts = [{
'a'
: 1,
'b'
: 2,
'c'
: 3,
'x'
: 4},
....: {
'a'
: 5,
'b'
: 6,
'c'
: 7,
'y'
: 8}]
....:
in [37]: result = df1.append(dicts, ignore_index=
true
)
|
在这里,将接着介绍pandas中也常常用到的join 和merge方法 。
pandas的merge方法提供了一种类似于sql的内存链接操作,官网文档提到它的性能会比其他开源语言的数据操作(例如r)要高效.
和sql语句的对比可以看 。
merge的参数 。
on:列名,join用来对齐的那一列的名字,用到这个参数的时候一定要保证左表和右表用来对齐的那一列都有相同的列名.
left_on:左表对齐的列,可以是列名,也可以是和dataframe同样长度的arrays.
right_on:右表对齐的列,可以是列名,也可以是和dataframe同样长度的arrays.
left_index/ right_index: 如果是true的haunted以index作为对齐的key 。
how:数据融合的方法.
sort:根据dataframe合并的keys按字典顺序排序,默认是,如果置false可以提高表现.
merge的默认合并方法:
merge用于表内部基于 index-on-index 和 index-on-column(s) 的合并,但默认是基于index来合并.
使用merge的时候可以选择多个key作为复合可以来对齐合并.
1
2
3
4
5
6
7
8
9
10
11
12
13
|
in [41]: left = pd.dataframe({
'key1'
: [
'k0'
,
'k0'
,
'k1'
,
'k2'
],
....:
'key2'
: [
'k0'
,
'k1'
,
'k0'
,
'k1'
],
....:
'a'
: [
'a0'
,
'a1'
,
'a2'
,
'a3'
],
....:
'b'
: [
'b0'
,
'b1'
,
'b2'
,
'b3'
]})
....:
in [42]: right = pd.dataframe({
'key1'
: [
'k0'
,
'k1'
,
'k1'
,
'k2'
],
....:
'key2'
: [
'k0'
,
'k0'
,
'k0'
,
'k0'
],
....:
'c'
: [
'c0'
,
'c1'
,
'c2'
,
'c3'
],
....:
'd'
: [
'd0'
,
'd1'
,
'd2'
,
'd3'
]})
....:
in [43]: result = pd.merge(left, right, on=[
'key1'
,
'key2'
])
|
没有指定how的话默认使用inner方法.
how的方法有:
left 。
只保留左表的所有数据 。
1
|
in [44]: result = pd.merge(left, right, how=
'left'
, on=[
'key1'
,
'key2'
])
|
right 。
只保留右表的所有数据 。
1
|
in [45]: result = pd.merge(left, right, how=
'right'
, on=[
'key1'
,
'key2'
])
|
outer 。
保留两个表的所有信息 。
1
|
in [46]: result = pd.merge(left, right, how=
'outer'
, on=[
'key1'
,
'key2'
])
|
inner 。
只保留两个表中公共部分的信息 。
1
|
in [47]: result = pd.merge(left, right, how=
'inner'
, on=[
'key1'
,
'key2'
])
|
v0.17.0 版本的pandas开始还支持一个indicator的参数,如果置true的时候,输出结果会增加一列 ' _merge'。_merge列可以取三个值 。
dataframe内置的join方法是一种快速合并的方法。它默认以index作为对齐的列.
join中的how参数和merge中的how参数一样,用来指定表合并保留数据的规则.
具体可见前面的 how 说明.
在实际应用中如果右表的索引值正是左表的某一列的值,这时可以通过将 右表的索引 和 左表的列 对齐合并这样灵活的方式进行合并.
ex 1 。
1
2
3
4
5
6
7
8
9
10
11
|
in [59]: left = pd.dataframe({
'a'
: [
'a0'
,
'a1'
,
'a2'
,
'a3'
],
....:
'b'
: [
'b0'
,
'b1'
,
'b2'
,
'b3'
],
....:
'key'
: [
'k0'
,
'k1'
,
'k0'
,
'k1'
]})
....:
in [60]: right = pd.dataframe({
'c'
: [
'c0'
,
'c1'
],
....:
'd'
: [
'd0'
,
'd1'
]},
....: index=[
'k0'
,
'k1'
])
....:
in [61]: result = left.join(right, on=
'key'
)
|
如果和表合并的过程中遇到有一列两个表都同名,但是值不同,合并的时候又都想保留下来,就可以用suffixes给每个表的重复列名增加后缀.
1
|
in [79]: result = pd.merge(left, right, on=
'k'
, suffixes=[
'_l'
,
'_r'
])
|
* 另外还有lsuffix 和 rsuffix分别指定左表的后缀和右表的后缀.
一次组合多个dataframe的时候可以传入元素为dataframe的列表或者tuple。一次join多个,一次解决多次烦恼~ 。
1
2
3
|
in [83]: right2 = pd.dataframe({
'v'
: [7, 8, 9]}, index=[
'k1'
,
'k1'
,
'k2'
])
in [84]: result = left.join([right, right2])
|
如果一个表的nan值,在另一个表相同位置(相同索引和相同列)可以找到,则可以通过combine_first来更新数据 。
如果要用一张表中的数据来更新另一张表的数据则可以用update来实现 。
使用combine_first会只更新左表的nan值。而update则会更新左表的所有能在右表中找到的值(两表位置相对应).
到此这篇关于pandas中dataframe 数据合并连接(merge、join、concat)的文章就介绍到这了,更多相关pandas中dataframe 数据合并内容请搜索我以前的文章或继续浏览下面的相关文章希望大家以后多多支持我! 。
原文链接:https://blog.csdn.net/qq_41853758/article/details/83280104 。
最后此篇关于pandas中DataFrame数据合并连接(merge、join、concat)的文章就讲到这里了,如果你想了解更多关于pandas中DataFrame数据合并连接(merge、join、concat)的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
数据库设置: http://sqlfiddle.com/#!2/4d1c2/1 以下查询选择属于productID的所有标签及其位置,逗号分隔: SELECT CONCAT_WS(',', GROUP
要连接两个文件,它看起来像这样: concat: { src: ['common.js','js/app.js'], dest: 'assets/js/app.js' } 如果
我有一个执行 SQL 脚本的 PDI(Kettle)转换,脚本的输出是一列,如下所示: val1 val2 val3 val4 "more values"... 我需要像这样在一个 Excel 单元格
我正在尝试传递一个参数 [例如@X nvarchar(MAX)] 转换成变量 [例如@message nvarchar(MAX)] 在存储过程中。该变量使用 CONCAT 组合字符串值和变量,它最终成
我不知道如何解释我的问题... 这是我的sql请求: SELECT DISTINCT CONCAT (nompropre, ' ', Auteur, ' de ', localite) AS aute
如何在与另一个表连接的表中使用 concat 和 group concat。架构如下所示: 第一表: MariaDB [ittresnamuda]> select * from tb_tipe_req
在我的 CREATE VIEW 中,我想: SELECT CONCAT( t.str1, t.str2 ) AS Title, CHAR_LENGTH( Title ) AS Length 但这会产生
我正在使用 CriteriaBuilder.concat 连接 2 个字符串,代码如下: Expression concat = criteriaBuilder.concat(expr1, expr2
我有以下继承 IEnumerable 的类 public class LinesEnumerable : IEnumerable { protected readonly IPointSeri
_.concat 和有什么区别lodash 和 Array.prototype.concat() ?. 最佳答案 欢迎来到 Stackoverflow! 这些函数的工作方式相同,但语法不同: _.co
我有一个非常大的表(几百万条记录)。表中的列 A 目前是这样的:id、道路名称、纬度、经度,其中 id 是自动增量 PK。 目前,1 个道路名称可以在表中包含多个条目,因为每条道路都映射到多个(纬度、
我测试了各种数组连接技术,并不是因为它实际上对我的代码很重要,而只是顺便说一句,看看我们现在在哪里。正如预期的那样,非常新的 ES 2015 传播运算符在 JavaScript 数组上被旧的 conc
我有一个数组,我需要使用一些编辑重新编译。我是在 async.concat() 的帮助下完成的,但有些东西不起作用。告诉我,哪里错了? async.concat(dialogs, function(d
在 JavaScript 中,我遇到过以两种主要方式编写的代码,用于连接两个(或更多)使用 .concat() 的数组。 Array 上的方法目的。 (假设在下文中,arr1 和 arr2 是作为 .
我之前曾使用 stack over flow 来解决我的 sql 问题并且成功了。 这一次我的下一期可能不会那么成功。 我有一个名为 Statements_1 的表,该表大约有 50 列,假设有 10
我在想以一种相当奇怪的方式从数据库获取东西时遇到了一些麻烦。假设我有下一张 table ID | Rating 229 | 3 229 | 2 229 | 4 229 | 2 2
我有类似表中的内容 mysql> select uuid , short-uuid FROM sampleUUID WHERE identifier ="test123"; +------------
我有一个查询,用于获取我离开加入两个表的帖子: 类别和标签:LEFT JOIN 到链接表→‖INNER JOIN 到类别和标签名称表。 LEFT JOIN wp_term_relationships
我目前正在开发一个大型 angular.js 项目。我使用 grunt 将所有文件合并/丑化为一个大的 target.js 文件,然后将其包含在索引页中。 我已经意识到,这使得在开发环境中调试变得非常
我的表中有三列:firstName、lastName 和 jobTitle。我想将 firstName 和 lastName 连接为 Fullname,然后连接 Fullname 和 jobTitle
我是一名优秀的程序员,十分优秀!