pandas - 对多个数据帧进行数据分析？面板还是多索引？-6ren

pandas - 对多个数据帧进行数据分析？面板还是多索引？

转载作者：行者123 更新时间：2023-12-02 09:55:35

24

4

当我使用 web.DataReader 提取多个股票的数据时，我得到一个面板作为输出。

import numpy as np
import pandas as pd
import pandas_datareader.data as web
import matplotlib.pyplot as plt
import datetime as dt
import re



startDate = '2010-01-01'
endDate = '2016-09-07'  
stocks_query = ['AAPL','OPK']


stocks = web.DataReader(stocks_query, data_source='yahoo',
                  start=startDate, end=endDate)
stocks = stocks.swapaxes('items','minor_axis')

导致输出:

Dimensions: 2 (items) x 1682 (major_axis) x 6 (minor_axis)
Items axis: AAPL to OPK
Major_axis axis: 2010-01-04 00:00:00 to 2016-09-07 00:00:00
Minor_axis axis: Open to Adj Close

面板的单个数据框如下所示

股票['OPK']

            Open  High   Low  Close      Volume  Adj Close  log_return  \
Date                                                                     
2010-01-04  1.80  1.97  1.76   1.95    234500.0       1.95         NaN   
2010-01-05  1.64  1.95  1.64   1.93    135800.0       1.93   -0.010309   
2010-01-06  1.90  1.92  1.77   1.79    546600.0       1.79   -0.075304   
2010-01-07  1.79  1.94  1.76   1.92    138700.0       1.92    0.070110   
2010-01-08  1.92  1.94  1.86   1.89     62500.0       1.89   -0.015748

我计划在所有数据帧中进行大量数据操作，添加新列。比较两个数据帧等。建议我研究 multi_indexing，因为面板已被弃用。

这是我第一次使用面板。如果我想向两个数据帧(AAPL、OPK)添加新列，我必须这样做:

for i in stocks:
        stocks[i]['log_return'] = np.log(stocks[i]['Close']/(stocks[i]['Close'].shift(1)))

如果确实建议使用 multi_indexing 来处理多个数据帧，那么我该如何将数据帧转换为我可以轻松使用的形式？我是否会有一个主要指数，下一级是股票，并且各列将包含在每只股票中？

我浏览了文档，其中给出了许多使用我没有得到的元组的示例或使用单个数据帧的示例。 http://pandas.pydata.org/pandas-docs/stable/advanced.html

那么我到底如何将面板转换为 multi_index 数据框？

最佳答案

我想延长@piRSquared's answer举一些例子:

In [40]: stocks.to_frame()
Out[40]:
                              AAPL         OPK
Date       minor
2010-01-04 Open       2.134300e+02        1.80
           High       2.145000e+02        1.97
           Low        2.123800e+02        1.76
           Close      2.140100e+02        1.95
           Volume     1.234324e+08   234500.00
           Adj Close  2.772704e+01        1.95
2010-01-05 Open       2.146000e+02        1.64
           High       2.155900e+02        1.95
           Low        2.132500e+02        1.64
           Close      2.143800e+02        1.93
...                            ...         ...
2016-09-06 Low        1.075100e+02        9.19
           Close      1.077000e+02        9.36
           Volume     2.688040e+07  3026900.00
           Adj Close  1.066873e+02        9.36
2016-09-07 Open       1.078300e+02        9.39
           High       1.087600e+02        9.60
           Low        1.070700e+02        9.38
           Close      1.083600e+02        9.59
           Volume     4.236430e+07  2632400.00
           Adj Close  1.073411e+02        9.59

[10092 rows x 2 columns]

但如果你想将其转换为 MultiIndex DF，最好保留原来的 pandas_datareader 面板:

In [38]: p = web.DataReader(stocks_query, data_source='yahoo', start=startDate, end=endDate)

In [39]: p.to_frame()
Out[39]:
                        Open        High         Low       Close       Volume   Adj Close
Date       minor
2010-01-04 AAPL   213.429998  214.499996  212.380001  214.009998  123432400.0   27.727039
           OPK      1.800000    1.970000    1.760000    1.950000     234500.0    1.950000
2010-01-05 AAPL   214.599998  215.589994  213.249994  214.379993  150476200.0   27.774976
           OPK      1.640000    1.950000    1.640000    1.930000     135800.0    1.930000
2010-01-06 AAPL   214.379993  215.230000  210.750004  210.969995  138040000.0   27.333178
           OPK      1.900000    1.920000    1.770000    1.790000     546600.0    1.790000
2010-01-07 AAPL   211.750000  212.000006  209.050005  210.580000  119282800.0   27.282650
           OPK      1.790000    1.940000    1.760000    1.920000     138700.0    1.920000
2010-01-08 AAPL   210.299994  212.000006  209.060005  211.980005  111902700.0   27.464034
           OPK      1.920000    1.940000    1.860000    1.890000      62500.0    1.890000
...                      ...         ...         ...         ...          ...         ...
2016-08-31 AAPL   105.660004  106.570000  105.639999  106.099998   29662400.0  105.102360
           OPK      9.260000    9.260000    9.070000    9.100000    2793300.0    9.100000
2016-09-01 AAPL   106.139999  106.800003  105.620003  106.730003   26701500.0  105.726441
           OPK      9.310000    9.540000    9.190000    9.290000    3515300.0    9.290000
2016-09-02 AAPL   107.699997  108.000000  106.820000  107.730003   26802500.0  106.717038
           OPK      9.340000    9.390000    9.160000    9.330000    2061200.0    9.330000
2016-09-06 AAPL   107.900002  108.300003  107.510002  107.699997   26880400.0  106.687314
           OPK      9.320000    9.480000    9.190000    9.360000    3026900.0    9.360000
2016-09-07 AAPL   107.830002  108.760002  107.070000  108.360001   42364300.0  107.341112
           OPK      9.390000    9.600000    9.380000    9.590000    2632400.0    9.590000

[3364 rows x 6 columns]

如何使用多索引 DF:

In [46]: df = p.to_frame()

In [47]: df.loc[pd.IndexSlice[:, ['AAPL']], :]
Out[47]:
                        Open        High         Low       Close       Volume   Adj Close
Date       minor
2010-01-04 AAPL   213.429998  214.499996  212.380001  214.009998  123432400.0   27.727039
2010-01-05 AAPL   214.599998  215.589994  213.249994  214.379993  150476200.0   27.774976
2010-01-06 AAPL   214.379993  215.230000  210.750004  210.969995  138040000.0   27.333178
2010-01-07 AAPL   211.750000  212.000006  209.050005  210.580000  119282800.0   27.282650
2010-01-08 AAPL   210.299994  212.000006  209.060005  211.980005  111902700.0   27.464034
2010-01-11 AAPL   212.799997  213.000002  208.450005  210.110003  115557400.0   27.221758
2010-01-12 AAPL   209.189995  209.769995  206.419998  207.720001  148614900.0   26.912110
2010-01-13 AAPL   207.870005  210.929995  204.099998  210.650002  151473000.0   27.291720
2010-01-14 AAPL   210.110003  210.459997  209.020004  209.430000  108223500.0   27.133657
2010-01-15 AAPL   210.929995  211.599997  205.869999  205.930000  148516900.0   26.680198
...                      ...         ...         ...         ...          ...         ...
2016-08-24 AAPL   108.570000  108.750000  107.680000  108.029999   23675100.0  107.014213
2016-08-25 AAPL   107.389999  107.879997  106.680000  107.570000   25086200.0  106.558539
2016-08-26 AAPL   107.410004  107.949997  106.309998  106.940002   27766300.0  105.934466
2016-08-29 AAPL   106.620003  107.440002  106.290001  106.820000   24970300.0  105.815591
2016-08-30 AAPL   105.800003  106.500000  105.500000  106.000000   24863900.0  105.003302
2016-08-31 AAPL   105.660004  106.570000  105.639999  106.099998   29662400.0  105.102360
2016-09-01 AAPL   106.139999  106.800003  105.620003  106.730003   26701500.0  105.726441
2016-09-02 AAPL   107.699997  108.000000  106.820000  107.730003   26802500.0  106.717038
2016-09-06 AAPL   107.900002  108.300003  107.510002  107.699997   26880400.0  106.687314
2016-09-07 AAPL   107.830002  108.760002  107.070000  108.360001   42364300.0  107.341112

[1682 rows x 6 columns]

关于pandas - 对多个数据帧进行数据分析？面板还是多索引？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43054570/

24

4

0

文章推荐： haskell - Haskell 中的偏函数图 : a -> Maybe b -> [a] -> [(a, b)]

文章推荐： c++ - 低于 4.5 的 OpenGL 版本的 glBindTextureUnit 的替代方案？

文章推荐： apache - htaccess RewriteCond !-f 问题

pandas - Pandas 交叉表与 Pandas 数据透视表有何不同？
pandas.crosstab 和 Pandas 数据透视表似乎都提供了完全相同的功能。有什么不同吗？最佳答案 pivot_table没有 normalize争论，不幸的是。在 crosstab
pandas - 从 pandas 值序列创建 pandas 区间序列
我能找到的最接近的答案似乎太复杂:How I can create an interval column in pandas? 如果我有一个如下所示的 pandas 数据框: +-------+ |
pandas - 将一列值移动到另一列 - Pandas
这是我用来将某一行的一列值移动到同一行的另一列的当前代码: #Move 2014/15 column ValB to column ValA df.loc[(df.Survey_year == 201
pandas - 如何将包含 bins 的 pandas 数据框写入文件以便将其读回 pandas？
我有一个以下格式的 Pandas 数据框: df = pd.DataFrame({'a' : [0,1,2,3,4,5,6], 'b' : [-0.5, 0.0, 1.0, 1.2, 1.4,
pandas - Pandas 数据框行上的克罗内克积
所以我有这两个数据框，我想得到一个新的数据框，它由两个数据框的行的克罗内克积组成。正确的做法是什么？举个例子:数据框1 c1 c2 0 10 100 1 11 110 2 12
pandas - Pandas 条形图中的刻度标签重叠
TL;DR:在 pandas 中，如何绘制条形图以使其 x 轴刻度标签看起来像折线图？我制作了一个间隔均匀的时间序列(每天一个项目)，并且可以像这样很好地绘制它: intensity[350:450
pandas - Pandas 中两个时间戳之间的差异
我有以下两个时间列，“Time1”和“Time2”。我必须计算 Pandas 中的“差异”列，即 (Time2-Time1): Time1 Time2
pandas - ( Pandas )根据顺序无关紧要的子集删除重复项
从这个 df 去的正确方法是什么: >>> df=pd.DataFrame({'a':['jeff','bob','jill'], 'b':['bob','jeff','mike']}) >>> df
pandas - Pandas 中唯一值的累积计数
我想按周从 Pandas 框架中的列中累积计算唯一值。例如，假设我有这样的数据: df = pd.DataFrame({'user_id':[1,1,1,2,2,2],'week':[1,1,2,1,
pandas - Pandas 更改数据透视表中列的顺序
数据透视表的表示形式看起来不像我在寻找的东西，更具体地说，结果行的顺序。我不知道如何以正确的方式进行更改。 df示例: test_df = pd.DataFrame({'name':['name_1
pandas - Pandas 中的分组召回
我有一个数据框，如下所示。 Category Actual Predicted 1 1 1 1 0
pandas - 计算从日期时间列到特定日期的天数 - pandas
我有一个 df，如下所示。 df: ID open_date limit 1 2020-06-03 100 1 2020-06-23 500
pandas - 删除不等于唯一项目值的行 - Pandas
我有一个 df ，其中包含与唯一值关联的各种字符串。对于这些唯一值，我想删除不等于单独列表的行，最后一行除外。下面使用 Label 中的各种字符串值与 Item 相关联.所以对于每个唯一的 Item
pandas - Pandas 按索引删除列会删除所有具有相同名称的列
考虑以下具有相同名称的列的数据框（显然，这确实发生了，目前我有一个像这样的数据集！:(） >>> df = pd.DataFrame({"a":range(10,15),"b":range(5,10)
pandas - Pandas DF中的重复行
我在 Pandas 中有一个 DF，它看起来像: Letters Numbers A 1 A 3 A 2 A 1 B 1 B 2
pandas - Pandas 两列之间的时差
如何减去两列之间的时间并将其转换为分钟 Date Time Ordered Time Delivered 0 1/11/19 9:25:00 am 10:58:00 am
pandas - pandas 使用哪种方法计算百分位数？
我试图理解 pandas 中的下/上百分位数计算，但有点困惑。这是它的示例代码和输出。 test = pd.Series([7, 15, 36, 39, 40, 41]) test.describe(
pandas - 如何提取多索引数据帧的索引名称，pandas
我有一个多索引数据框，如下所示: TQ bought HT Detailed Instru
pandas - Pandas :根据字符串计数创建直方图
我需要从包含值“低”，“中”或“高”的数据框列创建直方图。当我尝试执行通常的df.column.hist（）时，出现以下错误。 ex3.Severity.value_counts() Out[85]:
pandas - Pandas 中的子字符串列基于另一列
我试图根据另一列的长度对一列进行子串，但结果集是 NaN .我究竟做错了什么？ import pandas as pd df = pd.DataFrame([['abcdefghi','xyz'],

首页

博学

6Ren·AI

商城

pandas - 对多个数据帧进行数据分析？面板还是多索引？