python - Pandas Dataframe 中的 MultiIndex Groupby-6ren

python - Pandas Dataframe 中的 MultiIndex Groupby

转载作者：太空狗更新时间：2023-10-29 22:00:48

26

4

我有一个数据集，其中包含按年份划分的国家和经济指标统计数据，组织方式如下:

Country  Metric           2011   2012   2013  2014
  USA     GDP               7      4     0      2
  USA     Pop.              2      3     0      3
  GB      GDP               8      7     0      7
  GB      Pop.              2      6     0      0
  FR      GDP               5      0     0      1
  FR      Pop.              1      1     0      5

我如何在 pandas 中使用 MultiIndex 创建一个数据框，该数据框仅按年份显示每个国家/地区的 GDP？

我试过:

df = data.groupby(['Country', 'Metric'])

但它没有正常工作。

最佳答案

在这种情况下，您实际上不需要 groupby。您也没有 MultiIndex。你可以这样制作:

import pandas
from io import StringIO

datastring = StringIO("""\
Country  Metric           2011   2012   2013  2014
USA     GDP               7      4     0      2
USA     Pop.              2      3     0      3
GB      GDP               8      7     0      7
GB      Pop.              2      6     0      0
FR      GDP               5      0     0      1
FR      Pop.              1      1     0      5
""")
data = pandas.read_table(datastring, sep='\s\s+')
data.set_index(['Country', 'Metric'], inplace=True)

然后数据看起来像这样:

                2011  2012  2013  2014
Country Metric                        
USA     GDP        7     4     0     2
        Pop.       2     3     0     3
GB      GDP        8     7     0     7
        Pop.       2     6     0     0
FR      GDP        5     0     0     1
        Pop.       1     1     0     5

现在要获取 GDP，您可以通过 xs 方法获取数据框的横截面:

data.xs('GDP', level='Metric')

         2011  2012  2013  2014
Country                        
USA         7     4     0     2
GB          8     7     0     7
FR          5     0     0     1

这非常简单，因为您的数据已经过旋转/未堆叠。如果他们不是并且看起来像这样:

data.columns.names = ['Year']
data = data.stack()
data

Country  Metric  Year
USA      GDP     2011    7
                 2012    4
                 2013    0
                 2014    2
         Pop.    2011    2
                 2012    3
                 2013    0
                 2014    3
GB       GDP     2011    8
                 2012    7
                 2013    0
                 2014    7
         Pop.    2011    2
                 2012    6
                 2013    0
                 2014    0
FR       GDP     2011    5
                 2012    0
                 2013    0
                 2014    1
         Pop.    2011    1
                 2012    1
                 2013    0
                 2014    5

然后您可以使用 groupby 来告诉您有关整个世界的一些信息:

data.groupby(level=['Metric', 'Year']).sum()
Metric  Year
GDP     2011    20
        2012    11
        2013     0
        2014    10
Pop.    2011     5
        2012    10
        2013     0
        2014     8

或者变得很花哨:

data.groupby(level=['Metric', 'Year']).sum().unstack(level='Metric')
Metric  GDP  Pop.
Year             
2011     20     5
2012     11    10
2013      0     0
2014     10     8

关于python - Pandas Dataframe 中的 MultiIndex Groupby，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22214985/

26

4

0

文章推荐： c# - 如何在C#中进行相互认证？

文章推荐： python - 在设定的行范围内读取文本文件

python - 如何使用 MultiIndex 的相关级别对 MultiIndex DataFrame 进行切片
我有一个包含 4 个级别的 MultiIndex 的 pandas 数据框。我正在尝试为每个 1 级索引选择具有不同 4 级索引的行。例子: In [68]: df = pd.DataFrame({
python - Pandas multiindex dataframe - 从 multiindex 中的一个索引中选择最大值
我有一个数据框，其中包含 Year 和 Month 的多个索引，如下所示 | |Value Year |Month| | 1 | 3 1992 | 2 | 5
python - 如何用另一个的 MultiIndex 对一个 MultiIndex DataFrame 进行切片
我有一个带有 3 级 MultiIndex 的 pandas 数据框。我正在尝试根据对应于两个级别的值列表提取此数据帧的行。我有这样的事情: ix = pd.MultiIndex.from_prod
python - 将具有 multiindex 的 Pandas 数据框除以另一个具有较小 multiindex 的数据框
我想将具有多索引的数据帧中的所有列除以另一个具有多索引的数据帧，更小一级。前两个水平的蛾指数是相同的。并且应该播放第三级。 df_0 = pd.DataFrame( { "col0": [ 1
python - 如何将 Pandas Dataframe MultiIndex 行旋转到 MultiIndex 列中？
我想知道是否有人可以帮助我解决这个问题。如果我有一个简单的数据框: one two three four 0 A 1 a 1 1 A 2 b
python - 如何使用 MultiIndex 索引和 MultiIndex 列对 Pandas DataFrame 进行切片？
我希望创建一个新的 DataFrame，与基于芯片的设备 A 和 B 的结果相对应。以下是我创建 DataFrame 的代码: import numpy as np import pandas as
python - 如何使用 MultiIndex 索引和 MultiIndex 列对 Pandas DataFrame 进行切片？
我希望创建一个新的 DataFrame，与基于芯片的设备 A 和 B 的结果相对应。以下是我创建 DataFrame 的代码: import numpy as np import pandas as
python - pandas:将两个 DataFrame 与排序的 MultiIndex 连接起来，使得结果具有排序的 MultiIndex
请让我知道如何将两个 DataFrame 与排序的 MultiIndexes 连接起来，以便结果具有排序的 MultiIndex。由于两者都是排序的，算法必须根据两个 DataFrame 中的总行数
python - 使用包含新标签的数据附加带有 MultiIndex 的 pandas DataFrame，但保留旧 MultiIndex 的整数位置
基本场景对于推荐服务，我正在针对一组用户-项目交互训练矩阵分解模型 (LightFM)。为了使矩阵分解模型产生最佳结果，我需要将我的用户 ID 和商品 ID 映射到从 0 开始的连续整数 ID 范围
python - 带有 pandas groupby multiindex 的箱线图，用于来自 multiindex 的指定子级别
好的，所以我有一个数据框，其中包含时间序列数据，每列都有一个多行索引。这是数据的样例，它是 csv 格式的。加载数据在这里不是问题。我想要做的是能够创建一个箱线图，其中包含根据多索引特定行中的不同类
python - 使用级别中的唯一值重新索引 MultiIndex
我有这个数据框: df = pd.DataFrame({'NUMBER_1': {('2019-07', 'A'): 4, ('2019-07', 'D'): 2, ('2019-08', 'A'):
pandas Multiindex，仅对一个级别的值进行排序
我有点难以对用于我的一个数据集的列的 pandas MultiIndex 进行排序: MultiIndex(levels=[['Jan', 'Feb', 'Mar', 'Apr', 'May', 'J
pandas Multiindex，仅对一个级别的值进行排序
我有点难以对用于我的一个数据集的列的 pandas MultiIndex 进行排序: MultiIndex(levels=[['Jan', 'Feb', 'Mar', 'Apr', 'May', 'J
python - MultiIndex 来自不规则长度的列表
我有一个列表列表，我想将其制成多索引 Pandas 数据框，然后可以合并到原始 Pandas 数据框。列表的每一行都包含一个观察值，列表中的值由与该观察值匹配的相应行组成。这是我所拥有的一个简单版本
python - 将包含两部分的列转换为 MultiIndex
我有以下 DataFrame(从我无法更改的 CSV 文件中读取): df = pd.DataFrame([['low', 0.5, 123, 0.8, 123],
python - MultiIndex 来自两个索引的唯一值的乘积
我正在创建一个 MultiIndex.from_product()，但它必须是来自两个单独的 MultiIndexes 的唯一值的乘积。我下面的解决方案有效，但我想知道是否有更优雅的解决方案。 fro
python - 如何使用日期索引和多级列进行切片 (MultiIndex)
我有一个很大的pd.DataFrame，a，看起来像: bid TIT IM Equity HELN SE Equity FHZN SE Equity GLEN LN Equity f
python - 将其中一个索引作为元组的 MultiIndex
我创建了一个带有多索引的数据框，其中一个索引是一个元组。我无法使用 .loc 进行索引。这是数据框: a = [['a','a','a','b','b','b','c','c'],[('one',2
python - MultiIndex 数据帧的平均值
我有以下数据框 A B C D E F Algo T X
python - MultiIndex 的问题
我在使用 MultiIndex 和 stack() 时遇到问题。以下示例基于 solution from Calvin Cheung在 StackOvervlow 上。 === multi.csv =

首页

博学

6Ren·AI

商城

python - Pandas Dataframe 中的 MultiIndex Groupby