python - 在没有数据透视表的情况下展平 pandas DataFrame-6ren

python - 在没有数据透视表的情况下展平 pandas DataFrame

转载作者：太空宇宙更新时间：2023-11-04 02:45:37

24

4

调用 groupby 后，我有一个 MultiIndex pandas DataFrame，需要以一种时尚的方式将其展平 similar to flattening a pivot table .大多数分析已经围绕分组对象构建，因此宁愿不必重构到数据透视表中。

考虑一些虚拟数据，

dummy_data = pd.DataFrame({'Ccy' : ['EUR', 'EUR', 'CAD', 'CAD', 'EUR', 'EUR', 'CAD', 'EUR'],
                  'Venue' : ['BAML']*5 + ['BARX']*3,
                  'Price': np.abs(np.random.randn(8)),
                  'volume': np.abs(10*np.random.randn(8))
                   }, 
                  index = pd.date_range('7/19/2017', periods=8))

dummy_data.index.name = "datetime"
print dummy_data


>>>            Ccy     Price Venue     volume
datetime                                  
2017-07-19  EUR  1.338521  BAML  11.227553
2017-07-20  EUR  0.882715  BAML   0.307711
2017-07-21  CAD  0.977815  BAML  14.196170
2017-07-22  CAD  1.262272  BAML   0.055213
2017-07-23  EUR  0.752433  BAML   5.315777
2017-07-24  EUR  0.699008  BARX   2.299045
2017-07-25  CAD  1.625567  BARX   6.474822
2017-07-26  EUR  2.122562  BARX   5.026135

目标是按Ccy 和Venue 对数据进行分组，对每个子组应用filter 操作，然后将组展平为这个原始帧的格式。考虑一个简单的过滤器，它保留 price > 0.8

的行

dummy_data.groupby(['Ccy', 'Venue']).apply(lambda x: x[x['Price'] > 0.8])

>>>                      Ccy     Price Venue     volume
Ccy Venue datetime                                  
CAD BAML  2017-07-21  CAD  0.977815  BAML  14.196170
          2017-07-22  CAD  1.262272  BAML   0.055213
    BARX  2017-07-25  CAD  1.625567  BARX   6.474822
EUR BAML  2017-07-19  EUR  1.338521  BAML  11.227553
          2017-07-20  EUR  0.882715  BAML   0.307711
    BARX  2017-07-26  EUR  2.122562  BARX   5.026135

我现在需要的是填写/展平 Ccy 和 Venue 列，这样

Ccy Venue datetime                                  
CAD BAML  2017-07-21  ...                       CAD BAML 2017-07-21  ...
          2017-07-22  ...                       CAD BAML 2017-07-22  ... 
    BARX  2017-07-25  ...    ---> BECOMES --->  CAD BARX 2017-07-25 ...
EUR BAML  2017-07-19  ...                       EUR BAML 2017-07-19 ... 
          2017-07-20  ...                       EUR BAML 2017-07-20  ...

我需要这样做，因为我们有一系列绘图实用程序不够灵活，无法处理分组数据。难道不应该有一个与 groupby() 操作互惠的 ungroup() 或 flatten() 方法吗？

注意:本示例中的普通过滤器可以应用于未分组的数据。实际上，我的过滤器更复杂并且只对子组有意义。

解决方案尝试(来自 pivot table solution 的尝试 1 和 2)

尝试 1:melt 方法丢失了 datetime 索引。

    print dummy_data.groupby(['Ccy', 'Venue']).apply(lambda x: x[x['Price'] > 0.8]).melt()

>>>   variable      value
0       Ccy        CAD
1       Ccy        CAD
2       Ccy        CAD
3       Ccy        EUR
4       Ccy        EUR
5       Ccy        EUR
6     Price   0.977815
7     Price    1.26227
8     Price    1.62557
9     Price    1.33852

尝试 2: accepted answer导致 KeyError

dummy_data.groupby(['Ccy', 'Venue']).apply(lambda x: x[x['Price'] > 0.8]).unstack().reset_index().drop('level_0', axis=1)

KeyError: 'level_0'

尝试 3: reset_index() 导致 ValueError

dummy_data.groupby(['Ccy', 'Venue']).apply(lambda x: x[x['Price'] > 0.8]).reset_index()

ValueError: cannot insert Venue, already exists

尝试 4: as_index=False(没有 group_keys 关键字)

out = dummy_data.groupby(['Ccy', 'Venue'], as_index=False).apply(lambda x: x[x['Price'] > 0.8])
print out
print out.index

              Ccy     Price Venue     volume
  datetime                                  
0 2017-07-21  CAD  0.977815  BAML  14.196170
  2017-07-22  CAD  1.262272  BAML   0.055213
1 2017-07-25  CAD  1.625567  BARX   6.474822
2 2017-07-19  EUR  1.338521  BAML  11.227553
  2017-07-20  EUR  0.882715  BAML   0.307711
3 2017-07-26  EUR  2.122562  BARX   5.026135
MultiIndex(levels=[[0, 1, 2, 3], [2017-07-19 00:00:00, 2017-07-20 00:00:00, 2017-07-21 00:00:00, 2017-07-22 00:00:00, 2017-07-25 00:00:00, 2017-07-26 00:00:00]],
           labels=[[0, 0, 1, 2, 2, 3], [2, 3, 4, 0, 1, 5]],
           names=[None, u'datetime'])

这让我非常接近，但这个对象仍然是 MultiIndexed。我们怎样才能取回日期时间索引？

最佳答案

这可能是你想要的:

dummy_data.groupby(['Ccy', 'Venue'], group_keys=False)\
          .apply(lambda x: x[x['Price'] > 0.8])

关于python - 在没有数据透视表的情况下展平 pandas DataFrame，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45222897/

24

4

0

文章推荐： python - 使用 StratifiedKFold 创建训练/测试/验证拆分

文章推荐： c - C中的正则表达式匹配

文章推荐： c++ - 从 char 指针中减去 char 数组产生一个 int？

文章推荐： python - 使用 xlwings 排序 (pywin32)

java - 在具有多个条件的 If 情况下，我们能否获得条件失败的确切位置？
我是 Java 新手，这是我的代码， if( a.name == b.name && a.displayname == b.displayname && a.linknam
javascript - 在下面的 JavaScript 情况下，如何避免重复自己的情况？
在下面的场景中，我有一个 bool 值。根据结果，我调用完全相同的函数，唯一的区别是参数的数量。 var myBoolean = ... if (myBoolean) { retrieve
c++ - 异常(exception)情况下，我想在没有任何堆栈展开的情况下进行调试
我是一名研究 C++ 的 C 开发人员: 我是否正确理解如果我抛出异常然后堆栈将展开直到找到第一个异常处理程序？是否可以在不展开的情况下在任何 throw 上打开调试器(即不离开声明它的范围或任何更高
c++ - 在什么情况/情况下 dynamic_cast<> 会失败？
在修复庞大代码库中的错误时，我观察到一个奇怪的情况，其中引用的动态类型从原始 Derived 类型更改为 Base 类型!我提供了最少的代码来解释问题: struct Base { // some
c# for 循环在 switch/case 情况下 - 如何？
我正在尝试用 C# 扩展给定的代码，但由于缺乏编程经验，我有点陷入困境。使用 Visual Studio 社区，我尝试通过控制台读出 CPU 核心温度。该代码使用开关/外壳来查找传感器的特定名称(即
javascript - 在 AJAX 情况下，如何在目标页面评估 JavaScript？
这可能是一个哲学问题。假设您正在向页面发出 AJAX 请求(这是使用 Prototype): new Ajax.Request('target.asp', { method:"post", pa
html - 在 Usemap/area 情况下，光标未更改为指针
我有以下 HTML 代码，我无法在所有浏览器中正常工作: 我试图在移动到
swift - 在这种 Firebase 情况下，如何在函数之间传递数据？ swift + Xcode
我对 Swift 很陌生。我如何从 addPin 函数中检索注释并能够在我的 addLocation 操作 (buttonPressed) 中使用它。我正在尝试使用压力触摸在 map 上添加图钉，在两
ios - 在 iPad DetailView 情况下，viewDidUnload 未被调用
我设置了一个详细 View ，我是否有几个 Nib 文件根据在 Root View Controller 的表中选择的项目来加载。我发现，对于 Nibs 的类，永远不会调用 viewDidUnloa
javascript - 在这种 javascript 情况下，除了 eval 之外还有其他选择吗？
我需要动态访问 json 文件并使用以下代码。在本例中，“bpicsel”和“temp”是变量。最终结果类似于“data[0].extit1” var title="data["+bpicsel+"]
c# - 在 HTTPS 情况下，服务器证书未使用 HTTP.SYS 正确配置
我需要使用第三方 WCF 服务。我已经在我的证书存储中配置了所需的证书，但是在调用 WCF 服务时出现以下异常。向 https://XXXX.com/AHSharedServices/Custome
postgresql - 即使在 ON CONFLICT DO NOTHING 情况下，postgres INSERT 触发器也会触发
在几个 SO 答案(1、2)中，建议如果存在冲突则不应触发 INSERT 触发器，ON CONFLICT DO NOTHING 在触发语句中。也许我理解错了，但在我的实验中似乎并非如此。这是我的 S
java - 在 Hibernate3 中的 saveOrUpdateAll 情况下，具有相同标识符值的不同对象已与 session 关联
如果进行修改，则会给出org.hibernate.NonUniqueObjectException。在我的 BidderBO 类(class)中 @Override @Transactional(pr
javascript - 为什么 React App 的 redux 情况下 IndexOf(Object) 可以工作？
我使用 indexOf() 方法来精细地查找数组中的对象。直到此刻我查了一些资料，发现代码应该无法正常工作。我在reducer中尝试了上面的代码，它成功了 let tmp = state.find
mysql - 在指定了 ORDER BY 和 LIMIT 并且实际上只需要连接少量行的 JOIN 情况下，MySQL 的行为如何？
假设我有以下表格: CREATE TABLE Game ( GameID INT UNSIGNED NOT NULL, GameType TINYINT UNSIGNED NOT NU
ios - 在使用 swift ios 的某些 URL 情况下，Alamofire 进度状态显示 0.0
代码: Alamofire.request(URL(string: imageUrl)!).downloadProgress(closure: { (progress) in

首页

博学

6Ren·AI

商城

python - 在没有数据透视表的情况下展平 pandas DataFrame