详解pandas中利用DataFrame对象的.loc[]、.iloc[]方法抽取数据-6ren

详解pandas中利用DataFrame对象的.loc[]、.iloc[]方法抽取数据

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章详解pandas中利用DataFrame对象的.loc[]、.iloc[]方法抽取数据由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

pandas的DataFrame对象，本质上是二维矩阵，跟常规二维矩阵的差别在于前者额外指定了每一行和每一列的名称。这样内部数据抽取既可以用“行列名称（对应.loc[]方法）”，也可以用“矩阵下标（对应.iloc[]方法）”两种方式进行。下面具体说明:

（以下程序均在Jupyter notebook中进行，部分语句的print()函数省略）。

首先生成一个DataFrame对象：

 
    ? 
   
 
     
       
       
         import 
         pandas as pd 
        
 
         score  
         = 
         [[ 
         34 
         , 
         67 
         , 
         87 
         ],[ 
         68 
         , 
         98 
         , 
         58 
         ],[ 
         75 
         , 
         73 
         , 
         86 
         ],[ 
         94 
         , 
         59 
         , 
         81 
         ]] 
        
 
         name  
         = 
         [ 
         '小明' 
         , 
         '小红' 
         , 
         '小李' 
         ] 
        
 
         course  
         = 
         [ 
         '语文' 
         , 
         '数学' 
         , 
         '英语' 
         , 
         '政治' 
         ] 
        
 
         mydata1  
         = 
         pd.DataFrame(data 
         = 
         score,columns 
         = 
         name,index 
         = 
         course) 
         #指定行名（index）和列名（columns） 
        
 
         print 
         (mydata1) 
        
 
         mydata2  
         = 
         pd.DataFrame(score) 
         #不指定行列名，默认使用0,1,2…… 
        
 
         print 
         (mydata2) 
        
 
     
 
   

DataFrame对象生成时除了必须指定data参数外，用户还可以指定两个参数columns（列名）和index（行名，注意这里的index不仅可以是数字，也可以是用户指定的任何数据类型，如字母），如果不指定，则行列名默认都采用0、1、2…….

下图说明了前面的情况:

详解pandas中利用DataFrame对象的.loc[]、.iloc[]方法抽取数据

DataFrame对象的.loc[]和.iloc[]方法都可用于抽取数据，区别是:

.loc[]：是location，以columns（列名）和index（行名）作为参数。
.iloc[]：是index location，以二维矩阵的位置指标（即0,1,2……）作为参数。

.loc[]语法

.loc[行标签名/[行标签名list]，列标签名/[列标签名list]]，即有两个输入参数，第一个指定行名，第二个指定列名。当只有一个参数时，默认是行名（即抽取整行），所有列都选中.

.iloc[]语法

.loc[行位置/[行位置list]，列位置/[列位置list]]，也有两个输入参数，第一个指定行位置，第二个指定列位置。当只有一个参数时，默认是行位置（即抽取整行），所有列都选中.

例1.抽取1行数据

 
    ? 
   
         #以下用.loc[]抽取1行名为‘语文'的数据（包括所有列） 
        
         mydata1.loc[ 
         '语文' 
         ] 
        
         mydata1.loc[ 
         '语文' 
         ,] 
        
         mydata1.loc[ 
         '语文' 
         ,:] 
        
         mydata1.loc[[ 
         '语文' 
         ],] 
        
         mydata1.loc[[ 
         '语文' 
         ],:] 
        
         #以下用.iloc[]抽取1行名为‘语文'的数据（包括所有列） 
        
         mydata1.iloc[ 
         0 
         ] 
        
         mydata1.iloc[ 
         0 
         ,] 
        
         mydata1.iloc[ 
         0 
         ,:] 
        
         mydata1.iloc[[ 
         0 
         ],] 
        
         mydata1.iloc[[ 
         0 
         ],:] 
        
         #输出方式1（第1个参数无[]，这是一个Series对象）： 
        
         小明   
         34 
        
         小红   
         67 
        
         小李   
         87 
        
         Name: 语文, dtype: int64 
        
         #输出方式2（第1个参数有[]，这是一个DataFrame对象）： 
        
         小明 小红 小李 
        
         语文  
         34 
         67 
         87 
        
         Name: 语文, dtype: int64

上述.loc[]和.iloc[]都只接收了1个参数“语文”或者“0”，因此默认都表示行信息，而列则全部被选中，即抽取'语文'这整一行数据。','表示将两个参数隔开（如果有两个参数的话），':'这里表示选择中所有列。当只有一个输入参数时，python默认','和':'既可写上也可省略。注意：参数['语文']或[0]中只有一个对象时（即只有一行），[]也可以省略，如果有多个对象（即多行）则必须加上[]。此外还需注意，加上[]表示抽取的结果无论是一个数据，一行数据，还是一列数据，他都是DataFrame对象；不加[]时，如果选中的是一行或者一列数据，则是Series对象，如果是一个单独的数据，则是该数据本身的类型.

例2.指定行名抽取任意多行数据

 
    ? 
   
         #指定多行行名抽取 
        
         mydata1.loc[[ 
         '英语' 
         , 
         '语文' 
         , 
         '政治' 
         ],:] 
        
         小明 小红 小李 
        
         英语  
         75 
         73 
         86 
        
         语文  
         34 
         67 
         87 
        
         政治  
         94 
         59 
         81 
        
         mydata1.iloc[[ 
         1 
         , 
         0 
         ],:] 
        
         小明 小红 小李 
        
         数学  
         68 
         98 
         58 
        
         语文  
         34 
         67 
         87

例2和例1唯一的差别是，第一个参数指定了多行一起输出，此时必须用[]将各行名或者下标括起来，否则出错。后面的','和':'同例1，可省略。注意：原始数据的行顺序是：语文、数学、英语、政治，这里的提取顺序是['英语','语文','政治']，而输出也是'英语','语文','政治'，可见输出顺序和参数指定顺序是一致的，而非按原始顺序输出.

例3.抽取连续任意多行数据

 
    ? 
   
         mydata1.loc[ 
         '语文' 
         : 
         '英语' 
         ,:]  
         #连续抽取从语文到英语的所有行 
        
         小明 小红 小李 
        
         语文  
         34 
         67 
         87 
        
         数学  
         68 
         98 
         58 
        
         英语  
         75 
         73 
         86 
        
         mydata1.loc[: 
         '英语' 
         ,:]  
         #连续抽取从第1行到英语的所有行 
        
         小明 小红 小李 
        
         语文  
         34 
         67 
         87 
        
         数学  
         68 
         98 
         58 
        
         英语  
         75 
         73 
         86 
        
         mydata1.iloc[ 
         0 
         : 
         3 
         ,:]  
         #连续抽取1~3行 
        
         小明 小红 小李 
        
         语文  
         34 
         67 
         87 
        
         数学  
         68 
         98 
         58 
        
         英语  
         75 
         73 
         86 
        
         mydata1.iloc[ 
         1 
         :,:]  
         #连续抽取第2行最后一行 
        
         小明 小红 小李 
        
         数学  
         68 
         98 
         58 
        
         英语  
         75 
         73 
         86 
        
         政治  
         94 
         59 
         81

例3依然是接受1个参数，列参数没有，后面的','和':'同例1，可省略。连续参数用‘start:end'的方式指定行范围。注意：这里不能用[]将其括起来，否则出错。此外用行列名连续取值时，比如['语文':'政治']会把'政治'所在行也取出来，而利用矩阵下标时，0:3只取0,1,2对应的三行，最后一行不会取出；但是如果行列标签名本身就是整数0,1,2……，而不是文字或者其他类型，那么在使用连续行列标签名取数据时，最后一行或者列是不会被取出的.

例4.抽取“列”的各种情况

 
    ? 
   
         mydata1.loc[:,[ 
         '小红' 
         ]]  
         #所有行，小红列，只有一列时，内部[]也可以省略 
        
         小红 
        
         语文  
         67 
        
         数学  
         98 
        
         英语  
         73 
        
         政治  
         59 
        
         mydata1.loc[:,[ 
         '小明' 
         , 
         '小红' 
         ]]  
         #所有行，小明和小红两列 
        
         小明 小红 
        
         语文  
         34 
         67 
        
         数学  
         68 
         98 
        
         英语  
         75 
         73 
        
         政治  
         94 
         59 
        
         mydata1.iloc[:,[ 
         1 
         , 
         2 
         ]]  
         #所有行，第2和第3列 
        
         小红 小李 
        
         语文  
         67 
         87 
        
         数学  
         98 
         58 
        
         英语  
         73 
         86 
        
         政治  
         59 
         81 
        
         mydata1.loc[:, 
         '小明' 
         :]  
         #连续抽取从小明列开始到最后一列 
        
         小明 小红 小李 
        
         语文  
         34 
         67 
         87 
        
         数学  
         68 
         98 
         58 
        
         英语  
         75 
         73 
         86 
        
         政治  
         94 
         59 
         81 
        
         mydata1.iloc[:,: 
         3 
         ]  
         #连续抽取从1列开始到第3列 
        
         小明 小红 小李 
        
         语文  
         34 
         67 
         87 
        
         数学  
         68 
         98 
         58 
        
         英语  
         75 
         73 
         86 
        
         政治  
         94 
         59 
         81

抽取整列的方式跟抽取整行在参数设置上完全一样。.loc[]和.iloc[]两个方法默认列为第二个参数，因此抽取整列时，都必须带上':,'作为区分前面行参数的‘分隔符'，否则出错.

例5.同时抽取指定行和列对应数据

 
    ? 
   
         mydata1.loc[ 
         '语文' 
         , 
         '小明' 
         ]  
         #输入了两个参数，输出语文行小明列，即一个数据 
        
         34 
        
         < 
         class 
         'numpy.int64' 
         >  
         #没带[]时，单个数字是这种类型 
        
         mydata1.loc[[ 
         '语文' 
         ],[ 
         '小明' 
         ]]  
         #输出语文行小明列，即一个数据 
        
         小明 
        
         语文  
         34 
        
         < 
         class 
         'pandas.core.frame.DataFrame' 
         >  
         #带[]时，输出依然是DataFrame对象 
        
         mydata1.iloc[ 
         1 
         , 
         2 
         ]  
         #第2行第3列数据，单个数据 
        
         58 
        
         < 
         class 
         'numpy.int64' 
         >  
         #注意没带[]时的输出类型 
        
         mydata1.iloc[[ 
         1 
         ],[ 
         2 
         ]] 
        
         小李 
        
         数学  
         58 
        
         < 
         class 
         'pandas.core.frame.DataFrame' 
         >  
         #注意带[]时的输出类型 
        
         mydata1.loc[[ 
         '语文' 
         , 
         '数学' 
         ],[ 
         '小明' 
         ]]  
         #输出语文数学行，小明列的数据 
        
         小明 
        
         语文  
         34 
        
         数学  
         68 
        
         mydata1.iloc[ 
         1 
         :,[ 
         0 
         , 
         2 
         ]]  
         #输出从第2行到最后一行，第1和第3行对应数据 
        
         小明 小李 
        
         数学  
         68 
         58 
        
         英语  
         75 
         86 
        
         政治  
         94 
         81

同时抽取分部行和列的情况，就是把上述单独抽取行和列的方式合并起来用。抽取整个DataFrame对象则是.loc[:,:]或.iloc[:,:]，虽然这么做没啥意义.

总结：

（1）DataFrame对象的.loc[,]和.iloc[,]方法用于抽取数据，.loc[,]用行列的标签名作为参数，.iloc[,]用二维矩阵元素的网格下标作为参数。（2）两个方法都接受两个参数，第一个是“行标签”或者“矩阵行号”，第二个是“列标签”或者“矩阵列号”。（3）两种方法当只指定一个输入参数时，都默是跟“行”相关，而“列”则全部被选中。如何行和列都需要指定时，中间用“逗号,”隔开，这非常重要，否则出错。（4）当需要选中所有行的某几列时，行参数可以省略，列参数需要指定，此时列参数前面必须带上“,:”，形如.loc[:,列参数]，.iloc[:,列参数]。（5）.loc[,]和.iloc[,]设置了一个还是两个输入参数，关键看有没有“,”将两个参数分开，且要区分逗号是一个参数的内部逗号，还有用于分隔行列参数的逗号。（6）对于两个参数的概念区分，.loc['语文','数学']这表示输入了两个参数，行参数是‘语文'，列参数是‘数学'，对于上面的表格而言这是错的，因为没有叫‘数学'的列，应写为[['语文','数学']]，即‘数学'也是行参数的一部分，['语文','数学']整体作为一个行参数，这里的逗号不是用以分隔行和列，仅仅是行list里面的逗号。[['语文','数学']]=[['语文','数学'],]=[['语文','数学'],:]，都表示只有一个行参数，列全部选中.

到此这篇关于详解pandas中利用DataFrame对象的.loc[]、.iloc[]方法抽取数据的文章就介绍到这了,更多相关pandas .loc[]、.iloc[]抽取数据内容请搜索我以前的文章或继续浏览下面的相关文章希望大家以后多多支持我！。

原文链接：https://www.jianshu.com/p/f430d4f1b33f 。

最后此篇关于详解pandas中利用DataFrame对象的.loc[]、.iloc[]方法抽取数据的文章就讲到这里了,如果你想了解更多关于详解pandas中利用DataFrame对象的.loc[]、.iloc[]方法抽取数据的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： pandas按照列的值排序(某一列或者多列)

文章推荐： 2021很浪漫的男生微信网名很有个性的温柔男生网名

文章推荐：最新的丧系风格的扎心网名又丧又好听的网名

文章推荐：男生深沉的又比较忧郁的头像分享欲本身就是热情和爱

pandas - Pandas 交叉表与 Pandas 数据透视表有何不同？
pandas.crosstab 和 Pandas 数据透视表似乎都提供了完全相同的功能。有什么不同吗？最佳答案 pivot_table没有 normalize争论，不幸的是。在 crosstab
pandas - 从 pandas 值序列创建 pandas 区间序列
我能找到的最接近的答案似乎太复杂:How I can create an interval column in pandas? 如果我有一个如下所示的 pandas 数据框: +-------+ |
pandas - 将一列值移动到另一列 - Pandas
这是我用来将某一行的一列值移动到同一行的另一列的当前代码: #Move 2014/15 column ValB to column ValA df.loc[(df.Survey_year == 201
pandas - 如何将包含 bins 的 pandas 数据框写入文件以便将其读回 pandas？
我有一个以下格式的 Pandas 数据框: df = pd.DataFrame({'a' : [0,1,2,3,4,5,6], 'b' : [-0.5, 0.0, 1.0, 1.2, 1.4,
pandas - Pandas 数据框行上的克罗内克积
所以我有这两个数据框，我想得到一个新的数据框，它由两个数据框的行的克罗内克积组成。正确的做法是什么？举个例子:数据框1 c1 c2 0 10 100 1 11 110 2 12
pandas - Pandas 条形图中的刻度标签重叠
TL;DR:在 pandas 中，如何绘制条形图以使其 x 轴刻度标签看起来像折线图？我制作了一个间隔均匀的时间序列(每天一个项目)，并且可以像这样很好地绘制它: intensity[350:450
pandas - Pandas 中两个时间戳之间的差异
我有以下两个时间列，“Time1”和“Time2”。我必须计算 Pandas 中的“差异”列，即 (Time2-Time1): Time1 Time2
pandas - ( Pandas )根据顺序无关紧要的子集删除重复项
从这个 df 去的正确方法是什么: >>> df=pd.DataFrame({'a':['jeff','bob','jill'], 'b':['bob','jeff','mike']}) >>> df
pandas - Pandas 中唯一值的累积计数
我想按周从 Pandas 框架中的列中累积计算唯一值。例如，假设我有这样的数据: df = pd.DataFrame({'user_id':[1,1,1,2,2,2],'week':[1,1,2,1,
pandas - Pandas 更改数据透视表中列的顺序
数据透视表的表示形式看起来不像我在寻找的东西，更具体地说，结果行的顺序。我不知道如何以正确的方式进行更改。 df示例: test_df = pd.DataFrame({'name':['name_1
pandas - Pandas 中的分组召回
我有一个数据框，如下所示。 Category Actual Predicted 1 1 1 1 0
pandas - 计算从日期时间列到特定日期的天数 - pandas
我有一个 df，如下所示。 df: ID open_date limit 1 2020-06-03 100 1 2020-06-23 500
pandas - 删除不等于唯一项目值的行 - Pandas
我有一个 df ，其中包含与唯一值关联的各种字符串。对于这些唯一值，我想删除不等于单独列表的行，最后一行除外。下面使用 Label 中的各种字符串值与 Item 相关联.所以对于每个唯一的 Item
pandas - Pandas 按索引删除列会删除所有具有相同名称的列
考虑以下具有相同名称的列的数据框（显然，这确实发生了，目前我有一个像这样的数据集！:(） >>> df = pd.DataFrame({"a":range(10,15),"b":range(5,10)
pandas - Pandas DF中的重复行
我在 Pandas 中有一个 DF，它看起来像: Letters Numbers A 1 A 3 A 2 A 1 B 1 B 2
pandas - Pandas 两列之间的时差
如何减去两列之间的时间并将其转换为分钟 Date Time Ordered Time Delivered 0 1/11/19 9:25:00 am 10:58:00 am
pandas - pandas 使用哪种方法计算百分位数？
我试图理解 pandas 中的下/上百分位数计算，但有点困惑。这是它的示例代码和输出。 test = pd.Series([7, 15, 36, 39, 40, 41]) test.describe(
pandas - 如何提取多索引数据帧的索引名称，pandas
我有一个多索引数据框，如下所示: TQ bought HT Detailed Instru
pandas - Pandas :根据字符串计数创建直方图
我需要从包含值“低”，“中”或“高”的数据框列创建直方图。当我尝试执行通常的df.column.hist（）时，出现以下错误。 ex3.Severity.value_counts() Out[85]:
pandas - Pandas 中的子字符串列基于另一列
我试图根据另一列的长度对一列进行子串，但结果集是 NaN .我究竟做错了什么？ import pandas as pd df = pd.DataFrame([['abcdefghi','xyz'],

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城