python - 如何在 pandas 中交叉表的特定行和列上执行计算？-6ren

python - 如何在 pandas 中交叉表的特定行和列上执行计算？

转载作者：太空宇宙更新时间：2023-11-03 18:49:43

25

4

import pandas as pd
import numpy as np

c1 = np.repeat(['a','b'], [50, 50], axis=0)
c2 = list('xy'*50)
c3 = np.repeat(['G1','G2'], [50, 50], axis=0)
np.random.shuffle(c3)
c4=np.repeat([1,2], [50,50],axis=0)
np.random.shuffle(c4)
val = np.random.rand(100)

df = pd.DataFrame({'c1':c1, 'c2':c2, 'c3':c3, 'c4':c4, 'val':val})

table = pd.crosstab([df.c1,df.c2],[df.c3,df.c4])
c3     G1      G2    
c4      1   2   1   2
c1 c2                
a  x    3  11   5   6
   y    9   5   7   4
b  x    5   7  11   2
   y    5   5   5  10

对于每个组(G1、G2)，是否可以仅针对 c4==2 计算 ax - bx 和 ay - by > 并将结果保存在数据框中？:

x G1  4
y G1  0
x G2  4
y G2 -6

编辑:如果df采用这种格式，我该怎么做？:

c1 = np.repeat(['a','b'], [8, 8], axis=0)
c2 = list('xxxxyyyyxxxxyyyy')
c3 = ['G1','G1','G2','G2','G1','G1','G2','G2','G1','G1','G2','G2','G1','G1','G2','G2']
c4 = [1,2]*8
val = np.random.rand(16)
df = pd.DataFrame({'c1':c1,'c2':c2,'c3':c3,'c4':c4,'val':val})

最佳答案

你可以这样做:

In [6]: table
Out[6]:
c3     G1      G2
c4      1   2   1  2
c1 c2
a  x    6   5   8  6
   y    9   4   5  7
b  x    5  10   4  6
   y    7   4   6  8

In [7]: g = table.xs(2, level='c4', axis=1)

In [8]: g
Out[8]:
c3     G1  G2
c1 c2
a  x    5   6
   y    4   7
b  x   10   6
   y    4   8

In [9]: g.groupby(level='c2').apply(lambda x: x.iloc[0] - x.iloc[1])
Out[9]:
c3  G1  G2
c2
x   -5   0
y    0  -1

或者，将 as_index=False 传递给 groupby 并在 lambda 中使用 loc，这有点恕我直言，因为您是按名称而不是整数位置进行索引，所以更有意义:

In [11]: g.groupby(level='c2', as_index=False).apply(lambda x: x.loc['a'] - x.loc['b'])
Out[11]:
c3  G1  G2
c2
x   -5   0
y    0  -1

as_index 和 apply 仅适用于 pandas git master。如果您不使用 master，那么您将得到以下结果:

In [12]: r = g.groupby(level='c2').apply(lambda x: x.loc['a'] - x.loc['b'])

In [13]: r
Out[13]:
c3     G1  G2
c2 c2
x  x   -5   0
y  y    0  -1

您可以通过重新分配 r 的 index 属性来删除重复的 index:

In [28]: r.index = r.index.droplevel(0)

In [29]: r
Out[29]:
c3  G1  G2
c2
x   -5   0
y    0  -1

编辑:如果您有一个“熔化的”DataFrame，请执行以下操作:

In [28]: df
Out[28]:
   c1 c2  c3  c4    val
0   a  x  G1   1  0.244
1   a  x  G1   2  0.572
2   a  x  G2   1  0.837
3   a  x  G2   2  0.893
4   a  y  G1   1  0.951
5   a  y  G1   2  0.400
6   a  y  G2   1  0.391
7   a  y  G2   2  0.237
8   b  x  G1   1  0.904
9   b  x  G1   2  0.811
10  b  x  G2   1  0.536
11  b  x  G2   2  0.736
12  b  y  G1   1  0.546
13  b  y  G1   2  0.159
14  b  y  G2   1  0.735
15  b  y  G2   2  0.772

In [29]: g2 = df[df.c4 == 2]

In [30]: g2
Out[30]:
   c1 c2  c3  c4    val
1   a  x  G1   2  0.572
3   a  x  G2   2  0.893
5   a  y  G1   2  0.400
7   a  y  G2   2  0.237
9   b  x  G1   2  0.811
11  b  x  G2   2  0.736
13  b  y  G1   2  0.159
15  b  y  G2   2  0.772

In [31]: gb = g2.groupby(['c2', 'c3'])

In [32]: sub = gb.apply(lambda x: x.val.iloc[0] - x.val.iloc[1])

In [33]: sub
Out[33]:
c2  c3
x   G1   -0.239
    G2    0.157
y   G1    0.241
    G2   -0.535
dtype: float64

In [34]: sub.unstack()
Out[34]:
c3     G1     G2
c2
x  -0.239  0.157
y   0.241 -0.535

每当我不确定 groupby 操作中的组的外观时，我都会迭代 groupby 并打印出其组成部分:

In [40]: for _, x in g2.groupby(['c2', 'c3']):
   ....:     print x
   ....:     print
   ....:
  c1 c2  c3  c4    val
1  a  x  G1   2  0.572
9  b  x  G1   2  0.811

   c1 c2  c3  c4    val
3   a  x  G2   2  0.893
11  b  x  G2   2  0.736

   c1 c2  c3  c4    val
5   a  y  G1   2  0.400
13  b  y  G1   2  0.159

   c1 c2  c3  c4    val
7   a  y  G2   2  0.237
15  b  y  G2   2  0.772

这些是传递给 groupby.apply() 的 lambda x: ... 中的 x。

关于python - 如何在 pandas 中交叉表的特定行和列上执行计算？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18647647/

25

4

0

文章推荐： c# - 求一个C#或者VB.net的爬虫

文章推荐： python - 长时间运行 boto SNSConnection 是一个坏主意吗？

文章推荐： python - 在 MongoDB 中存储加密密码时出现问题

文章推荐： list - 学习箱形图和指针图的资源

macos - 执行 wine != 执行 `which wine`
我有一个“有趣”的问题，即以两种不同的方式运行 wine 会导致: $> wine --version /Applications/Wine.app/Contents/Resources/bin/wi
javascript - CRONTAB 执行 Python，使用 puppeteer 执行 Node 来进行网页抓取不起作用
我制作了这个网络抓取工具来获取网页中的表格。我使用 puppeteer (不知道 crontab 有问题)、Python 进行清理并处理数据库的输出但令我惊讶的是，当我执行它时 */50 * * *
javascript - 对 javascript 函数的 Objective-C 调用何时被调用/执行，何时不被调用/执行？
JavaScript 是否被调用或执行取决于什么？准确地说，我有两个函数，它们都以相同的方式调用: [self.mapView stringByEvaluatingJavaScriptFromStri
python - 为什么使用 statsmodels 执行 OLS 和使用 scikit 执行 PooledOLS 时会得到相同的结果？
我目前正在使用 python 做一个机器学习项目(这里是初学者，从头开始学习一切)。只是想知道 statsmodels 的 OLS 和 scikit 的 PooledOlS 使用我拥有的相同面板数据
c# - 通过 Enterprise Guide 执行 SAS 和从 .Net 执行 IOM 之间的区别
在使用集成对象模型 (IOM) 后，我可以执行 SAS 代码并将 SAS 数据集读入 .Net/C# 数据集 here . 只是好奇，使用 .Net 作为 SAS 服务器的客户端与使用 Enterpr
javascript - jQuery 不会使用 animate : top 200px function. 执行，但它会使用 animate: height 执行
有一些直接的 jQuery 在单击时隐藏打开的 div 未显示，但仍将高度添加到导航中以使其看起来好像要掉下来了。这个脚本工作正常: $(document).ready(funct
java - 为什么我的代码使用 'IF' 执行 'ELSE' 和 '==' ，但不使用 '.equals' 执行？
这个问题已经有答案了: How do I compare strings in Java? (23 个回答) 已关闭 4 年前。这里是 Java 新手，我正在使用 NetBeans 尝试一些简单的代
python - Keras 2.0.8 仅使用 Python 3.x 执行 1 个 epoch，使用 2.x 执行 10 个
如果我将它切换到 Python 2.x，它执行 10。这是为什么？训练逻辑回归模型 import keras.backend as
JavaScript 执行
我有两个脚本，它们包含在 HTML 正文中。在第一个脚本中，我初始化一个 JS 对象，该对象在第二个脚本标记中引用。 ... obj.a = 1000; obj.
执行@number时的Java链接列表错误消息
每当我运行该方法时，我都会收到一个带有数字的错误以下是我的代码。 public String getAccount() { String s = "Listing the accounts";
java - 执行 while 循环以显示菜单
我已经用 do~while(true) 创建了我的菜单；但是每次用户输入一个数字时，它不会运行程序，而是再次显示菜单!你怎么看？ //我的主要方法 public static void main(St
ipython - 执行/命令完成时通知
执行命令后，如何让IPython通知我？我可以使用铃声/警报还是通过弹出窗口获取它？我正在OS X 10.8.5的iTerm上运行Anaconda。最佳答案使用最新版本的iTerm，您可以在she
java - Swing 执行
您好，我刚刚使用菜单栏为 Swing 编写了代码。但是问题出现在运行中。我输入: javac Menu.java java Menu 它没有给出任何错误，但 GUI 没有显示。这是我的源代码以供引用:
.net - 执行.NET应用程序时验证Authenticode签名
我觉得这里缺少明显的东西，但是我看不到它写在任何地方。我使用Authenticode证书对可执行文件进行签名，但是当我开始学习有关它的更多信息时，我对原样的值(value)提出了质疑。签名的exe
按钮单击事件上的 JavaScript 执行
我正在设计一个应用程序，它使用 DataTables 中的预定义库来创建数据表。我想对数据表执行删除操作，为此应在按钮单击事件上执行 java 脚本。 $(document).ready(functi
Haskell - 执行 while 循环
我是 Haskell 新手，如果有人愿意帮助我，我会很高兴!我试图让这个程序与 do while 循环一起工作。第二个 getLine 命令的结果被放入变量 goGlenn 中，如果 goGlenn
java - 执行 while 循环时出现问题
我有一个用 swing 实现迷你游戏的程序，在主类中我有一个循环，用于监听游戏 map 中的 boolean 值。使用 while 实现的循环不会执行一条指令，如果它是唯一的一条指令，我不知道为什么。
java - 执行.jar时将OJBDC添加到类路径
我正在尝试开发一个连接到 Oracle 数据库并执行函数的 Java 应用程序。如果我在 Eclipse 中运行该应用程序，它可以工作，但是当我尝试在 Windows 命令提示符中运行 .jar 时，
java future 执行
我正在阅读有关 Java 中的 Future 和 javascript 中的 Promises 的内容。下面是我作为示例编写的代码。我的问题是分配给 future 的任务什么时候开始执行？当如下行创
java - 执行 && 最有效的方法？
我有一个常见的情况，您有两个变量(xSpeed 和 ySpeed)，当它们低于 minSpeed 时，我想将它们独立设置为零，并在它们都为零时退出。最有效的方法是什么？目前我有两种方法(方法2更干净

首页

博学

6Ren·AI

商城

python - 如何在 pandas 中交叉表的特定行和列上执行计算？