- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
调用 groupby
后,我有一个 MultiIndex pandas DataFrame,需要以一种时尚的方式将其展平 similar to flattening a pivot table .大多数分析已经围绕分组对象构建,因此宁愿不必重构到数据透视表中。
考虑一些虚拟数据,
dummy_data = pd.DataFrame({'Ccy' : ['EUR', 'EUR', 'CAD', 'CAD', 'EUR', 'EUR', 'CAD', 'EUR'],
'Venue' : ['BAML']*5 + ['BARX']*3,
'Price': np.abs(np.random.randn(8)),
'volume': np.abs(10*np.random.randn(8))
},
index = pd.date_range('7/19/2017', periods=8))
dummy_data.index.name = "datetime"
print dummy_data
>>> Ccy Price Venue volume
datetime
2017-07-19 EUR 1.338521 BAML 11.227553
2017-07-20 EUR 0.882715 BAML 0.307711
2017-07-21 CAD 0.977815 BAML 14.196170
2017-07-22 CAD 1.262272 BAML 0.055213
2017-07-23 EUR 0.752433 BAML 5.315777
2017-07-24 EUR 0.699008 BARX 2.299045
2017-07-25 CAD 1.625567 BARX 6.474822
2017-07-26 EUR 2.122562 BARX 5.026135
目标是按Ccy
和Venue
对数据进行分组,对每个子组应用filter
操作,然后将组展平为这个原始帧的格式。考虑一个简单的过滤器,它保留 price > 0.8
dummy_data.groupby(['Ccy', 'Venue']).apply(lambda x: x[x['Price'] > 0.8])
>>> Ccy Price Venue volume
Ccy Venue datetime
CAD BAML 2017-07-21 CAD 0.977815 BAML 14.196170
2017-07-22 CAD 1.262272 BAML 0.055213
BARX 2017-07-25 CAD 1.625567 BARX 6.474822
EUR BAML 2017-07-19 EUR 1.338521 BAML 11.227553
2017-07-20 EUR 0.882715 BAML 0.307711
BARX 2017-07-26 EUR 2.122562 BARX 5.026135
我现在需要的是填写/展平 Ccy
和 Venue
列,这样
Ccy Venue datetime
CAD BAML 2017-07-21 ... CAD BAML 2017-07-21 ...
2017-07-22 ... CAD BAML 2017-07-22 ...
BARX 2017-07-25 ... ---> BECOMES ---> CAD BARX 2017-07-25 ...
EUR BAML 2017-07-19 ... EUR BAML 2017-07-19 ...
2017-07-20 ... EUR BAML 2017-07-20 ...
我需要这样做,因为我们有一系列绘图实用程序不够灵活,无法处理分组数据。难道不应该有一个与 groupby()
操作互惠的 ungroup()
或 flatten()
方法吗?
注意:本示例中的普通过滤器可以应用于未分组的数据。实际上,我的过滤器更复杂并且只对子组有意义。
解决方案尝试(来自 pivot table solution 的尝试 1 和 2)
尝试 1:melt
方法丢失了 datetime
索引。
print dummy_data.groupby(['Ccy', 'Venue']).apply(lambda x: x[x['Price'] > 0.8]).melt()
>>> variable value
0 Ccy CAD
1 Ccy CAD
2 Ccy CAD
3 Ccy EUR
4 Ccy EUR
5 Ccy EUR
6 Price 0.977815
7 Price 1.26227
8 Price 1.62557
9 Price 1.33852
尝试 2: accepted answer导致 KeyError
dummy_data.groupby(['Ccy', 'Venue']).apply(lambda x: x[x['Price'] > 0.8]).unstack().reset_index().drop('level_0', axis=1)
KeyError: 'level_0'
尝试 3: reset_index()
导致 ValueError
dummy_data.groupby(['Ccy', 'Venue']).apply(lambda x: x[x['Price'] > 0.8]).reset_index()
ValueError: cannot insert Venue, already exists
尝试 4: as_index=False
(没有 group_keys
关键字)
out = dummy_data.groupby(['Ccy', 'Venue'], as_index=False).apply(lambda x: x[x['Price'] > 0.8])
print out
print out.index
Ccy Price Venue volume
datetime
0 2017-07-21 CAD 0.977815 BAML 14.196170
2017-07-22 CAD 1.262272 BAML 0.055213
1 2017-07-25 CAD 1.625567 BARX 6.474822
2 2017-07-19 EUR 1.338521 BAML 11.227553
2017-07-20 EUR 0.882715 BAML 0.307711
3 2017-07-26 EUR 2.122562 BARX 5.026135
MultiIndex(levels=[[0, 1, 2, 3], [2017-07-19 00:00:00, 2017-07-20 00:00:00, 2017-07-21 00:00:00, 2017-07-22 00:00:00, 2017-07-25 00:00:00, 2017-07-26 00:00:00]],
labels=[[0, 0, 1, 2, 2, 3], [2, 3, 4, 0, 1, 5]],
names=[None, u'datetime'])
这让我非常接近,但这个对象仍然是 MultiIndexed
。我们怎样才能取回日期时间索引?
最佳答案
这可能是你想要的:
dummy_data.groupby(['Ccy', 'Venue'], group_keys=False)\
.apply(lambda x: x[x['Price'] > 0.8])
关于python - 在没有数据透视表的情况下展平 pandas DataFrame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45222897/
我是 Java 新手,这是我的代码, if( a.name == b.name && a.displayname == b.displayname && a.linknam
在下面的场景中,我有一个 bool 值。根据结果,我调用完全相同的函数,唯一的区别是参数的数量。 var myBoolean = ... if (myBoolean) { retrieve
我是一名研究 C++ 的 C 开发人员: 我是否正确理解如果我抛出异常然后堆栈将展开直到找到第一个异常处理程序?是否可以在不展开的情况下在任何 throw 上打开调试器(即不离开声明它的范围或任何更高
在修复庞大代码库中的错误时,我观察到一个奇怪的情况,其中引用的动态类型从原始 Derived 类型更改为 Base 类型!我提供了最少的代码来解释问题: struct Base { // some
我正在尝试用 C# 扩展给定的代码,但由于缺乏编程经验,我有点陷入困境。 使用 Visual Studio 社区,我尝试通过控制台读出 CPU 核心温度。该代码使用开关/外壳来查找传感器的特定名称(即
这可能是一个哲学问题。 假设您正在向页面发出 AJAX 请求(这是使用 Prototype): new Ajax.Request('target.asp', { method:"post", pa
我有以下 HTML 代码,我无法在所有浏览器中正常工作: 我试图在移动到
我对 Swift 很陌生。我如何从 addPin 函数中检索注释并能够在我的 addLocation 操作 (buttonPressed) 中使用它。我正在尝试使用压力触摸在 map 上添加图钉,在两
我设置了一个详细 View ,我是否有几个 Nib 文件根据在 Root View Controller 的表中选择的项目来加载。 我发现,对于 Nibs 的类,永远不会调用 viewDidUnloa
我需要动态访问 json 文件并使用以下代码。在本例中,“bpicsel”和“temp”是变量。最终结果类似于“data[0].extit1” var title="data["+bpicsel+"]
我需要使用第三方 WCF 服务。我已经在我的证书存储中配置了所需的证书,但是在调用 WCF 服务时出现以下异常。 向 https://XXXX.com/AHSharedServices/Custome
在几个 SO 答案(1、2)中,建议如果存在冲突则不应触发 INSERT 触发器,ON CONFLICT DO NOTHING 在触发语句中。也许我理解错了,但在我的实验中似乎并非如此。 这是我的 S
如果进行修改,则会给出org.hibernate.NonUniqueObjectException。在我的 BidderBO 类(class)中 @Override @Transactional(pr
我使用 indexOf() 方法来精细地查找数组中的对象。 直到此刻我查了一些资料,发现代码应该无法正常工作。 我在reducer中尝试了上面的代码,它成功了 let tmp = state.find
假设我有以下表格: CREATE TABLE Game ( GameID INT UNSIGNED NOT NULL, GameType TINYINT UNSIGNED NOT NU
代码: Alamofire.request(URL(string: imageUrl)!).downloadProgress(closure: { (progress) in
我是一名优秀的程序员,十分优秀!