gpt4 book ai didi

python - 如何旋转数据框

转载 作者:太空宇宙 更新时间:2023-11-03 20:21:11 25 4
gpt4 key购买 nike

什么是支点?
我如何枢纽?
这是支点吗?
长格式到宽格式?


我已经看到很多有关数据透视表的问题。即使他们不知道他们在询问数据透视表,通常也是如此。几乎不可能写出涵盖枢纽各个方面的规范问答。

...但是我要去尝试一下。



现有问题和答案的问题在于,问题通常集中在OP难以推广的细微差别上,以便使用许多现有的良好答案。但是,没有一个答案试图给出全面的解释(因为这是一项艰巨的任务)

从我的google search看一些例子


How to pivot a dataframe in Pandas?


好问题和答案。但是答案只回答了很少的具体问题。

pandas pivot table to data frame


在此问题中,OP与枢轴的输出有关。即列的外观。 OP希望它看起来像R。这对熊猫用户不是很有帮助。

pandas pivoting a dataframe, duplicate rows


另一个不错的问题,但答案集中在一种方法上,即pd.DataFrame.pivot



因此,每当有人搜索pivot时,他们都会得到零星的结果,可能无法回答他们的特定问题。



设定

您可能会注意到,我显眼地命名了我的列和相关的列值,以与我将在以下答案中介绍的方式相对应。

import numpy as np
import pandas as pd
from numpy.core.defchararray import add

np.random.seed([3,1415])
n = 20

cols = np.array(['key', 'row', 'item', 'col'])
arr1 = (np.random.randint(5, size=(n, 4)) // [2, 1, 2, 1]).astype(str)

df = pd.DataFrame(
add(cols, arr1), columns=cols
).join(
pd.DataFrame(np.random.rand(n, 2).round(2)).add_prefix('val')
)
print(df)

key row item col val0 val1
0 key0 row3 item1 col3 0.81 0.04
1 key1 row2 item1 col2 0.44 0.07
2 key1 row0 item1 col0 0.77 0.01
3 key0 row4 item0 col2 0.15 0.59
4 key1 row0 item2 col1 0.81 0.64
5 key1 row2 item2 col4 0.13 0.88
6 key2 row4 item1 col3 0.88 0.39
7 key1 row4 item1 col1 0.10 0.07
8 key1 row0 item2 col4 0.65 0.02
9 key1 row2 item0 col2 0.35 0.61
10 key2 row0 item2 col1 0.40 0.85
11 key2 row4 item1 col2 0.64 0.25
12 key0 row2 item2 col3 0.50 0.44
13 key0 row4 item1 col4 0.24 0.46
14 key1 row3 item2 col3 0.28 0.11
15 key0 row3 item1 col1 0.31 0.23
16 key0 row0 item2 col3 0.86 0.01
17 key0 row4 item0 col3 0.64 0.21
18 key2 row2 item2 col0 0.13 0.45
19 key0 row2 item0 col4 0.37 0.70


问题


为什么我得到 ValueError: Index contains duplicate entries, cannot reshape
如何旋转 df以使 col值是列, row值是索引,而 val0的均值是值?

col   col0   col1   col2   col3  col4
row
row0 0.77 0.605 NaN 0.860 0.65
row2 0.13 NaN 0.395 0.500 0.25
row3 NaN 0.310 NaN 0.545 NaN
row4 NaN 0.100 0.395 0.760 0.24

如何旋转 df以使 col值是列, row值是索引, val0的均值是值,而缺少的值是 0

col   col0   col1   col2   col3  col4
row
row0 0.77 0.605 0.000 0.860 0.65
row2 0.13 0.000 0.395 0.500 0.25
row3 0.00 0.310 0.000 0.545 0.00
row4 0.00 0.100 0.395 0.760 0.24

我可以得到 mean以外的其他东西,例如 sum吗?

col   col0  col1  col2  col3  col4
row
row0 0.77 1.21 0.00 0.86 0.65
row2 0.13 0.00 0.79 0.50 0.50
row3 0.00 0.31 0.00 1.09 0.00
row4 0.00 0.10 0.79 1.52 0.24

我可以一次做多个聚合吗?

       sum                          mean                           
col col0 col1 col2 col3 col4 col0 col1 col2 col3 col4
row
row0 0.77 1.21 0.00 0.86 0.65 0.77 0.605 0.000 0.860 0.65
row2 0.13 0.00 0.79 0.50 0.50 0.13 0.000 0.395 0.500 0.25
row3 0.00 0.31 0.00 1.09 0.00 0.00 0.310 0.000 0.545 0.00
row4 0.00 0.10 0.79 1.52 0.24 0.00 0.100 0.395 0.760 0.24

我可以汇总多个值列吗?

      val0                             val1                          
col col0 col1 col2 col3 col4 col0 col1 col2 col3 col4
row
row0 0.77 0.605 0.000 0.860 0.65 0.01 0.745 0.00 0.010 0.02
row2 0.13 0.000 0.395 0.500 0.25 0.45 0.000 0.34 0.440 0.79
row3 0.00 0.310 0.000 0.545 0.00 0.00 0.230 0.00 0.075 0.00
row4 0.00 0.100 0.395 0.760 0.24 0.00 0.070 0.42 0.300 0.46

可以细分为多列吗?

item item0             item1                         item2                   
col col2 col3 col4 col0 col1 col2 col3 col4 col0 col1 col3 col4
row
row0 0.00 0.00 0.00 0.77 0.00 0.00 0.00 0.00 0.00 0.605 0.86 0.65
row2 0.35 0.00 0.37 0.00 0.00 0.44 0.00 0.00 0.13 0.000 0.50 0.13
row3 0.00 0.00 0.00 0.00 0.31 0.00 0.81 0.00 0.00 0.000 0.28 0.00
row4 0.15 0.64 0.00 0.00 0.10 0.64 0.88 0.24 0.00 0.000 0.00 0.00

要么

item      item0             item1                         item2                  
col col2 col3 col4 col0 col1 col2 col3 col4 col0 col1 col3 col4
key row
key0 row0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.86 0.00
row2 0.00 0.00 0.37 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.50 0.00
row3 0.00 0.00 0.00 0.00 0.31 0.00 0.81 0.00 0.00 0.00 0.00 0.00
row4 0.15 0.64 0.00 0.00 0.00 0.00 0.00 0.24 0.00 0.00 0.00 0.00
key1 row0 0.00 0.00 0.00 0.77 0.00 0.00 0.00 0.00 0.00 0.81 0.00 0.65
row2 0.35 0.00 0.00 0.00 0.00 0.44 0.00 0.00 0.00 0.00 0.00 0.13
row3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.28 0.00
row4 0.00 0.00 0.00 0.00 0.10 0.00 0.00 0.00 0.00 0.00 0.00 0.00
key2 row0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.40 0.00 0.00
row2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.13 0.00 0.00 0.00
row4 0.00 0.00 0.00 0.00 0.00 0.64 0.88 0.00 0.00 0.00 0.00 0.00

我是否可以汇总列和行一起出现的频率,又称为“交叉表”?

col   col0  col1  col2  col3  col4
row
row0 1 2 0 1 1
row2 1 0 2 1 2
row3 0 1 0 2 0
row4 0 1 2 2 1

如何通过仅旋转两列将DataFrame从长转换为宽?鉴于

np.random.seed([3, 1415])
df2 = pd.DataFrame({'A': list('aaaabbbc'), 'B': np.random.choice(15, 8)})
df2
A B
0 a 0
1 a 11
2 a 2
3 a 11
4 b 10
5 b 10
6 b 14
7 c 7


预期应该看起来像

      a     b    c
0 0.0 10.0 7.0
1 11.0 10.0 NaN
2 2.0 14.0 NaN
3 11.0 NaN NaN

pivot后如何将多重索引展平为单个索引



   1  2   
1 1 2
a 2 1 1
b 2 1 0
c 1 0 0




   1|1  2|1  2|2               
a 2 1 1
b 2 1 0
c 1 0 0

最佳答案

我们首先回答第一个问题:

问题1


  为什么我得到ValueError: Index contains duplicate entries, cannot reshape


发生这种情况是因为pandas试图为具有重复条目的columnsindex对象重新编制索引。有多种方法可以执行数据透视。当有人要求重复输入密钥时,其中某些方法不太适合。例如。考虑pd.DataFrame.pivot。我知道有重复的条目共享rowcol值:

df.duplicated(['row', 'col']).any()

True


所以当我 pivot使用

df.pivot(index='row', columns='col', values='val0')


我收到上述错误。实际上,当我尝试使用以下命令执行相同的任务时,会出现相同的错误:

df.set_index(['row', 'col'])['val0'].unstack()


这是我们可以用来透视的成语列表


pd.DataFrame.groupby + pd.DataFrame.unstack


进行几乎所有类型的数据透视的良好通用方法
您指定一组将构成枢轴行级别和列级别的所有列。通过选择要聚合的其余列以及要执行聚合的函数,可以做到这一点。最后,在列索引中 unstack您想要的级别。

pd.DataFrame.pivot_table


groupby的美化版本,具有更直观的API。对于许多人来说,这是首选方法。并且是开发人员的预期方法。
指定行级别,列级别,要聚合的值以及执行聚合的函数。

pd.DataFrame.set_index + pd.DataFrame.unstack


方便和直观的一些(包括我自己)。无法处理重复的分组密钥。
groupby范例类似,我们指定最终将成为行或列级别的所有列,并将其设置为索引。然后,我们在各列中 unstack所需的级别。如果其余索引级别或列级别都不唯一,则此方法将失败。

pd.DataFrame.pivot


set_index非常相似,因为它共享重复的密钥限制。该API也非常有限。它仅采用 indexcolumnsvalues的标量值。
pivot_table方法类似,我们选择要在其上旋转的行,列和值。但是,我们无法聚合,并且如果行或列都不唯一,则此方法将失败。

pd.crosstab


这是 pivot_table的专用版本,它的最纯粹形式是执行多个任务的最直观的方法。

pd.factorize + np.bincount


这是一种非常先进的技术,它非常晦涩,但是速度却很快。并非在所有情况下都可以使用它,但是只要您可以使用它并且感觉舒适,就会获得性能上的回报。

pd.get_dummies + pd.DataFrame.dot


我用它来巧妙地执行交叉制表。





例子

对于接下来的每个答案和问题,我将使用 pd.DataFrame.pivot_table进行回答。然后,我将提供替代方法来执行相同的任务。

问题3


  如何旋转 df以使 col值是列, row值是索引, val0的均值是值,而缺少的值是 0



pd.DataFrame.pivot_table


默认情况下未设置 fill_value。我倾向于适当地设置它。在这种情况下,我将其设置为 0。请注意,我跳过了问题2,因为它与没有 fill_value的此答案相同
aggfunc='mean'是默认设置,我无需设置。我将其包括在内是为了明确。

df.pivot_table(
values='val0', index='row', columns='col',
fill_value=0, aggfunc='mean')

col col0 col1 col2 col3 col4
row
row0 0.77 0.605 0.000 0.860 0.65
row2 0.13 0.000 0.395 0.500 0.25
row3 0.00 0.310 0.000 0.545 0.00
row4 0.00 0.100 0.395 0.760 0.24


pd.DataFrame.groupby

df.groupby(['row', 'col'])['val0'].mean().unstack(fill_value=0)

pd.crosstab

pd.crosstab(
index=df['row'], columns=df['col'],
values=df['val0'], aggfunc='mean').fillna(0)





问题4


  我可以得到 mean以外的其他东西,例如 sum吗?



pd.DataFrame.pivot_table

df.pivot_table(
values='val0', index='row', columns='col',
fill_value=0, aggfunc='sum')

col col0 col1 col2 col3 col4
row
row0 0.77 1.21 0.00 0.86 0.65
row2 0.13 0.00 0.79 0.50 0.50
row3 0.00 0.31 0.00 1.09 0.00
row4 0.00 0.10 0.79 1.52 0.24

pd.DataFrame.groupby

df.groupby(['row', 'col'])['val0'].sum().unstack(fill_value=0)

pd.crosstab

pd.crosstab(
index=df['row'], columns=df['col'],
values=df['val0'], aggfunc='sum').fillna(0)





问题5


  我可以一次做多个聚合吗?


注意,对于 pivot_tablecrosstab,我需要传递可调用列表。另一方面, groupby.agg能够为有限数量的特殊功能使用字符串。 groupby.agg也将采用我们传递给其他对象的相同可调用对象,但是利用字符串函数名称通常会更有效,因为可以提高效率。


pd.DataFrame.pivot_table

df.pivot_table(
values='val0', index='row', columns='col',
fill_value=0, aggfunc=[np.size, np.mean])

size mean
col col0 col1 col2 col3 col4 col0 col1 col2 col3 col4
row
row0 1 2 0 1 1 0.77 0.605 0.000 0.860 0.65
row2 1 0 2 1 2 0.13 0.000 0.395 0.500 0.25
row3 0 1 0 2 0 0.00 0.310 0.000 0.545 0.00
row4 0 1 2 2 1 0.00 0.100 0.395 0.760 0.24

pd.DataFrame.groupby

df.groupby(['row', 'col'])['val0'].agg(['size', 'mean']).unstack(fill_value=0)

pd.crosstab

pd.crosstab(
index=df['row'], columns=df['col'],
values=df['val0'], aggfunc=[np.size, np.mean]).fillna(0, downcast='infer')





问题6


  我可以汇总多个值列吗?



pd.DataFrame.pivot_table我们通过了 values=['val0', 'val1'],但我们可以完全忽略它

df.pivot_table(
values=['val0', 'val1'], index='row', columns='col',
fill_value=0, aggfunc='mean')

val0 val1
col col0 col1 col2 col3 col4 col0 col1 col2 col3 col4
row
row0 0.77 0.605 0.000 0.860 0.65 0.01 0.745 0.00 0.010 0.02
row2 0.13 0.000 0.395 0.500 0.25 0.45 0.000 0.34 0.440 0.79
row3 0.00 0.310 0.000 0.545 0.00 0.00 0.230 0.00 0.075 0.00
row4 0.00 0.100 0.395 0.760 0.24 0.00 0.070 0.42 0.300 0.46

pd.DataFrame.groupby

df.groupby(['row', 'col'])['val0', 'val1'].mean().unstack(fill_value=0)





问题7


  可以细分为多列吗?



pd.DataFrame.pivot_table

df.pivot_table(
values='val0', index='row', columns=['item', 'col'],
fill_value=0, aggfunc='mean')

item item0 item1 item2
col col2 col3 col4 col0 col1 col2 col3 col4 col0 col1 col3 col4
row
row0 0.00 0.00 0.00 0.77 0.00 0.00 0.00 0.00 0.00 0.605 0.86 0.65
row2 0.35 0.00 0.37 0.00 0.00 0.44 0.00 0.00 0.13 0.000 0.50 0.13
row3 0.00 0.00 0.00 0.00 0.31 0.00 0.81 0.00 0.00 0.000 0.28 0.00
row4 0.15 0.64 0.00 0.00 0.10 0.64 0.88 0.24 0.00 0.000 0.00 0.00

pd.DataFrame.groupby

df.groupby(
['row', 'item', 'col']
)['val0'].mean().unstack(['item', 'col']).fillna(0).sort_index(1)





问题8


  可以细分为多列吗?



pd.DataFrame.pivot_table

df.pivot_table(
values='val0', index=['key', 'row'], columns=['item', 'col'],
fill_value=0, aggfunc='mean')

item item0 item1 item2
col col2 col3 col4 col0 col1 col2 col3 col4 col0 col1 col3 col4
key row
key0 row0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.86 0.00
row2 0.00 0.00 0.37 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.50 0.00
row3 0.00 0.00 0.00 0.00 0.31 0.00 0.81 0.00 0.00 0.00 0.00 0.00
row4 0.15 0.64 0.00 0.00 0.00 0.00 0.00 0.24 0.00 0.00 0.00 0.00
key1 row0 0.00 0.00 0.00 0.77 0.00 0.00 0.00 0.00 0.00 0.81 0.00 0.65
row2 0.35 0.00 0.00 0.00 0.00 0.44 0.00 0.00 0.00 0.00 0.00 0.13
row3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.28 0.00
row4 0.00 0.00 0.00 0.00 0.10 0.00 0.00 0.00 0.00 0.00 0.00 0.00
key2 row0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.40 0.00 0.00
row2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.13 0.00 0.00 0.00
row4 0.00 0.00 0.00 0.00 0.00 0.64 0.88 0.00 0.00 0.00 0.00 0.00

pd.DataFrame.groupby

df.groupby(
['key', 'row', 'item', 'col']
)['val0'].mean().unstack(['item', 'col']).fillna(0).sort_index(1)

pd.DataFrame.set_index因为键集对于行和列都是唯一的

df.set_index(
['key', 'row', 'item', 'col']
)['val0'].unstack(['item', 'col']).fillna(0).sort_index(1)





问题9


  我是否可以汇总列和行一起出现的频率,又称为“交叉表”?



pd.DataFrame.pivot_table

df.pivot_table(index='row', columns='col', fill_value=0, aggfunc='size')

col col0 col1 col2 col3 col4
row
row0 1 2 0 1 1
row2 1 0 2 1 2
row3 0 1 0 2 0
row4 0 1 2 2 1

pd.DataFrame.groupby

df.groupby(['row', 'col'])['val0'].size().unstack(fill_value=0)

pd.crosstab

pd.crosstab(df['row'], df['col'])

pd.factorize + np.bincount

# get integer factorization `i` and unique values `r`
# for column `'row'`
i, r = pd.factorize(df['row'].values)
# get integer factorization `j` and unique values `c`
# for column `'col'`
j, c = pd.factorize(df['col'].values)
# `n` will be the number of rows
# `m` will be the number of columns
n, m = r.size, c.size
# `i * m + j` is a clever way of counting the
# factorization bins assuming a flat array of length
# `n * m`. Which is why we subsequently reshape as `(n, m)`
b = np.bincount(i * m + j, minlength=n * m).reshape(n, m)
# BTW, whenever I read this, I think 'Bean, Rice, and Cheese'
pd.DataFrame(b, r, c)

col3 col2 col0 col1 col4
row3 2 0 0 1 0
row2 1 2 1 0 2
row0 1 0 1 2 1
row4 2 2 0 1 1

pd.get_dummies

pd.get_dummies(df['row']).T.dot(pd.get_dummies(df['col']))

col0 col1 col2 col3 col4
row0 1 2 0 1 1
row2 1 0 2 1 2
row3 0 1 0 2 0
row4 0 1 2 2 1





问题10


  如何通过仅旋转两个将DataFrame从长转换为宽
  列?


第一步是为每行分配一个数字-该数字将成为透视结果中该值的行索引。使用 GroupBy.cumcount完成此操作:

df2.insert(0, 'count', df.groupby('A').cumcount())
df2

count A B
0 0 a 0
1 1 a 11
2 2 a 2
3 3 a 11
4 0 b 10
5 1 b 10
6 2 b 14
7 0 c 7


第二步是使用新创建的列作为索引来调用 DataFrame.pivot

df2.pivot(*df)
# df.pivot(index='count', columns='A', values='B')

A a b c
count
0 0.0 10.0 7.0
1 11.0 10.0 NaN
2 2.0 14.0 NaN
3 11.0 NaN NaN




问题11


   pivot后如何将多重索引展平为单个索引


如果 columns用字符串 object键入 join

df.columns = df.columns.map('|'.join)


其他 format

df.columns = df.columns.map('{0[0]}|{0[1]}'.format) 

关于python - 如何旋转数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58150514/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com