python - 子集数据框 Pandas 时间序列-6ren

python - 子集数据框 Pandas 时间序列

转载作者：行者123 更新时间：2023-12-01 05:15:24

**根据提供的答案更新了代码**实现的解决方案不会对原始数据帧进行子集化。



    In [1]: thresh_eval.head()

    Out[1]:
        WDIR    WSPD    GDR     GST     GTIME
    TX_DTTM                     
    2010-01-01 05:50:00     235     10.9    238     13.4    540
    2010-01-02 00:20:00     329     10.6    NaN     NaN     NaN
    2010-01-02 00:30:00     329     10.8    NaN     NaN     NaN
    2010-01-02 00:40:00     329     12.1    NaN     NaN     NaN
    2010-01-02 00:50:00     332     12.2    330     14.8    46

    In [2]: len(thresh_eval)

    Out[2]: 5503

    In [3]: unique(thresh_eval.index.date)

    Out[3]:

    array([datetime.date(2010, 1, 1), datetime.date(2010, 1, 2),
           datetime.date(2010, 1, 3), datetime.date(2010, 1, 4),
           datetime.date(2010, 1, 6), datetime.date(2010, 1, 8),
           datetime.date(2010, 1, 9), datetime.date(2010, 1, 12),
           datetime.date(2010, 1, 16), datetime.date(2010, 1, 17),
           datetime.date(2010, 1, 18), datetime.date(2010, 1, 21),
           datetime.date(2010, 1, 22), datetime.date(2010, 1, 23),
           datetime.date(2010, 1, 24), datetime.date(2010, 1, 25),
           datetime.date(2010, 1, 26), datetime.date(2010, 1, 27),
           datetime.date(2010, 1, 29), datetime.date(2010, 1, 30),
           datetime.date(2010, 1, 31), datetime.date(2010, 2, 1),
           datetime.date(2010, 2, 2), datetime.date(2010, 2, 3),
           datetime.date(2010, 2, 4), datetime.date(2010, 2, 5),
           datetime.date(2010, 2, 6), datetime.date(2010, 2, 7),
           datetime.date(2010, 2, 9), datetime.date(2010, 2, 10),
           datetime.date(2010, 2, 11), datetime.date(2010, 2, 12),
           datetime.date(2010, 2, 13), datetime.date(2010, 2, 14),
           datetime.date(2010, 2, 15), datetime.date(2010, 2, 16),
           datetime.date(2010, 2, 17), datetime.date(2010, 2, 18),
           datetime.date(2010, 2, 22), datetime.date(2010, 2, 25),
           datetime.date(2010, 2, 26), datetime.date(2010, 2, 27),
           datetime.date(2010, 2, 28), datetime.date(2010, 3, 2),
           datetime.date(2010, 3, 3), datetime.date(2010, 3, 12),
           datetime.date(2010, 3, 13), datetime.date(2010, 3, 14),
           datetime.date(2010, 3, 15), datetime.date(2010, 3, 18),
           datetime.date(2010, 3, 21), datetime.date(2010, 3, 22),
           datetime.date(2010, 3, 23), datetime.date(2010, 3, 26),
           datetime.date(2010, 3, 27), datetime.date(2010, 3, 28),
           datetime.date(2010, 3, 29), datetime.date(2010, 3, 30),
           datetime.date(2010, 4, 9), datetime.date(2010, 4, 17),
           datetime.date(2010, 4, 18), datetime.date(2010, 4, 25),
           datetime.date(2010, 4, 26), datetime.date(2010, 4, 27),
           datetime.date(2010, 4, 28), datetime.date(2010, 5, 3),
           datetime.date(2010, 5, 8), datetime.date(2010, 5, 9),
           datetime.date(2010, 5, 17), datetime.date(2010, 5, 24),
           datetime.date(2010, 5, 25), datetime.date(2010, 5, 26),
           datetime.date(2010, 6, 2), datetime.date(2010, 6, 3),
           datetime.date(2010, 6, 6), datetime.date(2010, 6, 7),
           datetime.date(2010, 6, 16), datetime.date(2010, 6, 28),
           datetime.date(2010, 7, 2), datetime.date(2010, 7, 3),
           datetime.date(2010, 7, 10), datetime.date(2010, 7, 16),
           datetime.date(2010, 7, 22), datetime.date(2010, 7, 26),
           datetime.date(2010, 7, 28), datetime.date(2010, 7, 30),
           datetime.date(2010, 8, 1), datetime.date(2010, 8, 7),
           datetime.date(2010, 8, 23), datetime.date(2010, 8, 24),
           datetime.date(2010, 9, 2), datetime.date(2010, 9, 12),
           datetime.date(2010, 9, 27), datetime.date(2010, 9, 29),
           datetime.date(2010, 9, 30), datetime.date(2010, 10, 2),
           datetime.date(2010, 10, 3), datetime.date(2010, 10, 15),
           datetime.date(2010, 10, 16), datetime.date(2010, 10, 25),
           datetime.date(2010, 10, 26), datetime.date(2010, 10, 27),
           datetime.date(2010, 10, 29), datetime.date(2010, 11, 2),
           datetime.date(2010, 11, 3), datetime.date(2010, 11, 4),
           datetime.date(2010, 11, 5), datetime.date(2010, 11, 6),
           datetime.date(2010, 11, 7), datetime.date(2010, 11, 9),
           datetime.date(2010, 11, 12), datetime.date(2010, 11, 16),
           datetime.date(2010, 11, 17), datetime.date(2010, 11, 26),
           datetime.date(2010, 11, 27), datetime.date(2010, 11, 28),
           datetime.date(2010, 11, 29), datetime.date(2010, 11, 30),
           datetime.date(2010, 12, 1), datetime.date(2010, 12, 2),
           datetime.date(2010, 12, 4), datetime.date(2010, 12, 5),
           datetime.date(2010, 12, 6), datetime.date(2010, 12, 7),
           datetime.date(2010, 12, 11), datetime.date(2010, 12, 12),
           datetime.date(2010, 12, 13), datetime.date(2010, 12, 14),
           datetime.date(2010, 12, 16), datetime.date(2010, 12, 17),
           datetime.date(2010, 12, 18), datetime.date(2010, 12, 19),
           datetime.date(2010, 12, 20), datetime.date(2010, 12, 22),
           datetime.date(2010, 12, 23), datetime.date(2010, 12, 24),
           datetime.date(2010, 12, 26), datetime.date(2010, 12, 27),
           datetime.date(2010, 12, 28)], dtype=object)

    In [4]: ais.head()

    Out[4]:
        MMSI    LAT     LON     COURSE_OVER_GROUND  NAV_STATUS  POS_ACCURACY    RATE_OF_TURN    SPEED_OVER_GROUND   HEADING
    TX_DTTM                                     
    2010-01-01 00:00:19     12345678    32.834746   -79.929589  1820    0   0   128     71  NaN
    2010-01-01 00:00:29     12345678    32.834384   -79.929602  1832    0   0   128     71  NaN
    2010-01-01 00:00:40     12345678    32.834058   -79.929619  1836    0   0   128     70  NaN
    2010-01-01 00:00:50     12345678    32.833703   -79.929647  1847    0   0   128     70  NaN
    2010-01-01 00:01:00     12345678    32.833386   -79.929689  1897    0   0   128     69  NaN

    In [5]: unique(ais.index.date)

    Out[5]:

    array([datetime.date(2010, 1, 1), datetime.date(2010, 1, 4),
           datetime.date(2010, 1, 5), datetime.date(2010, 1, 6),
           datetime.date(2010, 1, 7), datetime.date(2010, 1, 8),
           datetime.date(2010, 1, 9), datetime.date(2010, 1, 10),
           datetime.date(2010, 1, 11), datetime.date(2010, 1, 12),
           datetime.date(2010, 1, 13), datetime.date(2010, 1, 14),
           datetime.date(2010, 1, 15), datetime.date(2010, 1, 16),
           datetime.date(2010, 1, 17), datetime.date(2010, 1, 18),
           datetime.date(2010, 1, 19), datetime.date(2010, 1, 20),
           datetime.date(2010, 1, 21), datetime.date(2010, 1, 22),
           datetime.date(2010, 1, 23), datetime.date(2010, 1, 24),
           datetime.date(2010, 1, 25), datetime.date(2010, 1, 26),
           datetime.date(2010, 1, 27), datetime.date(2010, 1, 28),
           datetime.date(2010, 1, 29), datetime.date(2010, 1, 30),
           datetime.date(2010, 1, 31), datetime.date(2010, 2, 1)], dtype=object)

    In [6]: len(ais)

    Out[6]: 2750499

    In [7]: ais[Index(ais.index.date).isin(Index(thresh_eval.index.date))]

    Out[7]:
        MMSI    LAT     LON     COURSE_OVER_GROUND  NAV_STATUS  POS_ACCURACY    RATE_OF_TURN    SPEED_OVER_GROUND   HEADING
    TX_DTTM                                     
    2010-01-01 00:00:19     12345678    32.834746   -79.929589  1820    0   0   128     71  NaN
    2010-01-01 00:00:29     12345678    32.834384   -79.929602  1832    0   0   128     71  NaN
    2010-01-01 00:00:40     12345678    32.834058   -79.929619  1836    0   0   128     70  NaN
    2010-01-01 00:00:50     12345678    32.833703   -79.929647  1847    0   0   128     70  NaN
    2010-01-01 00:01:00     12345678    32.833386   -79.929689  1897    0   0   128     69  NaN
    2010-01-01 00:01:06     12345678    32.833106   -79.929757  1934    0   0   128     69  NaN
    2010-01-01 00:01:16     12345678    32.832830   -79.929850  1978    0   0   128     69  NaN
    2010-01-01 00:01:26     12345678    32.832495   -79.929990  2010    0   0   128     69  NaN

    In [8]: len(ais)

    Out[8]: 2750499

    In [9]: unique(ais.index.date)

    Out[9]:

    array([datetime.date(2010, 1, 1), datetime.date(2010, 1, 4),
           datetime.date(2010, 1, 5), datetime.date(2010, 1, 6),
           datetime.date(2010, 1, 7), datetime.date(2010, 1, 8),
           datetime.date(2010, 1, 9), datetime.date(2010, 1, 10),
           datetime.date(2010, 1, 11), datetime.date(2010, 1, 12),
           datetime.date(2010, 1, 13), datetime.date(2010, 1, 14),
           datetime.date(2010, 1, 15), datetime.date(2010, 1, 16),
           datetime.date(2010, 1, 17), datetime.date(2010, 1, 18),
           datetime.date(2010, 1, 19), datetime.date(2010, 1, 20),
           datetime.date(2010, 1, 21), datetime.date(2010, 1, 22),
           datetime.date(2010, 1, 23), datetime.date(2010, 1, 24),
           datetime.date(2010, 1, 25), datetime.date(2010, 1, 26),
           datetime.date(2010, 1, 27), datetime.date(2010, 1, 28),
           datetime.date(2010, 1, 29), datetime.date(2010, 1, 30),
           datetime.date(2010, 1, 31), datetime.date(2010, 2, 1)], dtype=object)

**原始问题:**我试图根据数据帧的日期时间索引与另一个数据帧的日期时间索引之间的比较来对数据帧进行子集化。 df1 是用作过滤器的下采样时间序列的数据帧。 df2是要过滤的记录的数据帧，它具有更高的时间分辨率，并且每个日期出现在df1中的多个记录:

In [1]: df1
    Out[1]:
                 WSPD        cd
    date                           
    2010-07-10  11.325645  0.000019
    2010-08-23  12.258462  0.000019
    2010-11-09  10.771429  0.000019
    2010-11-12  10.650000  0.000019
    2010-11-16  11.939535  0.000019
    ...

    In [2]: df2
    Out[2]:
                             ID   Latitude  Longitude  Course  RateOfTurn  
    TimeStamp                                                                  
    2010-06-26 22:36:11  311425000  32.832500 -79.929000       3           0   
    2010-06-26 22:36:21  311425000  32.832845 -79.929037       3           0   
    2010-06-26 22:36:32  311425000  32.833333 -79.929000       3           0   
    2010-06-26 22:36:42  311425000  32.833666 -79.929000       3           0 
    2010-07-10 07:37:21  548723000  32.832333 -79.929000     1.0           0   
    2010-07-10 07:37:31  548723000  32.832666 -79.929000     1.0           0   
    2010-07-10 07:37:40  548723000  32.833000 -79.929000     2.0           0   
    2010-07-10 07:37:51  548723000  32.833333 -79.929000     1.0           0   
    2010-07-10 07:38:04  548723000  32.833666 -79.929000     0.0           0   
    2010-08-23 09:29:48  311425000  32.832590 -79.928985     0.0           0   
    2010-08-23 09:30:00  311425000  32.833053 -79.928970     1.0           0   
    2010-08-23 09:30:10  311425000  32.833443 -79.928957     1.0           0   
    2010-08-23 09:30:18  311425000  32.833746 -79.928944     2.0           0   
    ...

    In [3]: list = []
            for i,item in enumerate(df2.index.date): 
                if item in df1.index.date:
                    list.append(item)

    In [4]: list
    out[4]: [datetime.date(2010, 8, 23),
     datetime.date(2010, 8, 23),
     datetime.date(2010, 8, 23),
     datetime.date(2010, 8, 23),
     datetime.date(2010, 7, 10),
     datetime.date(2010, 7, 10),
     datetime.date(2010, 7, 10),
     datetime.date(2010, 7, 10),
     datetime.date(2010, 7, 10)]

我正在丢失索引之外的内容。我真的很想要 df2 中的记录子集，包括所有数据，其日期时间与 df1 的日频率匹配，例如:


    2010-07-10 07:37:21  548723000  32.832333 -79.929000     1.0           0   
    2010-07-10 07:37:31  548723000  32.832666 -79.929000     1.0           0   
    2010-07-10 07:37:40  548723000  32.833000 -79.929000     2.0           0   
    2010-07-10 07:37:51  548723000  32.833333 -79.929000     1.0           0   
    2010-07-10 07:38:04  548723000  32.833666 -79.929000     0.0           0   
    2010-08-23 09:29:48  311425000  32.832590 -79.928985     0.0           0   
    2010-08-23 09:30:00  311425000  32.833053 -79.928970     1.0           0   
    2010-08-23 09:30:10  311425000  32.833443 -79.928957     1.0           0   
    2010-08-23 09:30:18  311425000  32.833746 -79.928944     2.0           0

如有任何帮助，我们将不胜感激!

最佳答案

使用isin方法:

In [33]: import datetime

In [34]: import pandas as pd

In [35]: from pandas import DataFrame, Index

In [36]: from numpy.random import randn, unique, array

In [37]: df1 = DataFrame({'lat': randn(48), 'long': randn(48)}, index=pd.date_range('2013-01-02',periods=4
8,freq='H'))

In [38]: df2 = DataFrame({'lat': randn(72), 'long': randn(72)}, index=pd.date_range('2013-01-02',periods=7
2,freq='H'))

In [39]: df1.head()
Out[39]:
                        lat    long
2013-01-02 00:00:00  0.7310  0.3083
2013-01-02 01:00:00  1.8540  0.7355
2013-01-02 02:00:00  0.3097 -0.1834
2013-01-02 03:00:00  0.8455  0.8350
2013-01-02 04:00:00  0.4017  0.0559

[5 rows x 2 columns]

In [40]: df2.head()
Out[40]:
                        lat    long
2013-01-02 00:00:00  1.4248  0.2289
2013-01-02 01:00:00 -0.5055  0.1072
2013-01-02 02:00:00 -1.8265 -1.0651
2013-01-02 03:00:00  0.5888  0.3992
2013-01-02 04:00:00 -1.5210  0.0710

[5 rows x 2 columns]

In [41]: df2[Index(df2.index.date).isin(Index(df1.index.date))]
Out[41]:
                        lat    long
2013-01-02 00:00:00  1.4248  0.2289
2013-01-02 01:00:00 -0.5055  0.1072
2013-01-02 02:00:00 -1.8265 -1.0651
2013-01-02 03:00:00  0.5888  0.3992
2013-01-02 04:00:00 -1.5210  0.0710
2013-01-02 05:00:00  0.8382 -1.5569
2013-01-02 06:00:00 -0.7878  0.9253
2013-01-02 07:00:00 -0.1686 -1.0128
2013-01-02 08:00:00 -0.2481 -0.4247
2013-01-02 09:00:00  0.0794 -0.1947
2013-01-02 10:00:00 -0.5046 -0.1535
2013-01-02 11:00:00  0.0696 -1.5125
2013-01-02 12:00:00  1.1984 -0.1880
2013-01-02 13:00:00  0.8251 -0.2588
2013-01-02 14:00:00  1.5858 -1.2998
2013-01-02 15:00:00  0.2727 -0.3030
2013-01-02 16:00:00  0.9459 -0.8018
2013-01-02 17:00:00 -1.5055 -1.1344
2013-01-02 18:00:00  0.3970  0.7449
2013-01-02 19:00:00 -1.0256  0.2245
2013-01-02 20:00:00  0.8322  0.6473
2013-01-02 21:00:00  0.2759  1.4096
2013-01-02 22:00:00 -0.5167  1.5676
2013-01-02 23:00:00  0.4620  0.4936
2013-01-03 00:00:00  1.4400  0.5696
                        ...     ...

[48 rows x 2 columns]

您可以通过比较来检查结果是否仅包含与日频率重叠的日期索引

In [42]: unique(df2[Index(df2.index.date).isin(Index(df1.index.date))].index.date)
Out[42]: array([datetime.date(2013, 1, 2), datetime.date(2013, 1, 3)], dtype=object)

In [43]: unique(df1.index.date)
Out[43]: array([datetime.date(2013, 1, 2), datetime.date(2013, 1, 3)], dtype=object)

关于python - 子集数据框 Pandas 时间序列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23346905/

文章推荐： python - 在 Shell 和 SQLAlchemy 中编辑 Python 类

文章推荐： tabs - 如何重命名 Workbench 中的选项卡？

android -/数据/数据/在哪里？
初学者 android 问题。好的，我已经成功写入文件。例如。 //获取文件名 String filename = getResources().getString(R.string.filename
安卓/数据/数据/mypackage/img
我已经将相同的图像保存到/data/data/mypackage/img/中，现在我想显示这个全屏，我曾尝试使用 ACTION_VIEW 来显示 android 标准程序，但它不是从/data/dat
ios - Swift 4:无法将“数据”类型的值转换为预期的参数类型“数据”
我正在使用Xcode 9，Swift 4。我正在尝试使用以下代码从URL在ImageView中显示图像: func getImageFromUrl(sourceUrl: String) -> UII
android - 基因运动。如何从设备中提取数据库。我的/数据/数据/文件夹似乎是空的
我的 Ubuntu 安装 genymotion 有问题。主要是我无法调试我的数据库，因为通过 eclipse 中的 DBMS 和 shell 中的 adb 我无法查看/data/文件夹的内容。没有显示
php - JSON 数据 ajax 不是正确的 POST 数据
我正在尝试用 PHP 发布一些 JSON 数据。但是出了点问题。这是我的 html -- {% for x in sets %}
r - lm(数据~时间)和tslm(数据~趋势)有什么区别
我观察到两种方法的结果不同。为什么是这样？我知道 lm 上发生了什么，但无法弄清楚 tslm 上发生了什么。 > library(forecast) > set.seed(2) > tts lm(t
Spring 数据 JPA 和 Spring 数据 Elasticsearch ；找不到类型的属性索引？
我不确定为什么会这样!我有一个由 spring data elasticsearch 和 spring data jpa 使用的类，但是当我尝试运行我的应用程序时出现错误。 Error creatin
d3.js - 数据过滤器适用于 json 数据，但不适用于 csv 数据
在 this vega 图表，如果我下载并转换 flare-dependencies.json使用以下 jq 到 csv命令， jq -r '(map(keys) | add | unique) as
php - 在 .php 文件中发送 mysql 数据/mysql 数据
我正在提交一个项目，我必须在其中创建一个带有表的 mysql 数据库。一切都在我这边进行，所以我只想检查如何将我所有的压缩文件发送给使用不同计算机的人。基本上，我如何为另一台计算机创建我的数据库文件，
android - 如何使用 Android Device Monitor 的文件资源管理器查找我的应用程序/数据/数据
我有一个应用程序可以将文本文件写入内部存储。我想仔细看看我的电脑。我运行了 Toast.makeText 来显示路径，它说:/数据/数据/我的包但是当我转到 Android Studio 的 An
android - 如何从 Genymotion 的 android 模拟器访问文件/数据/数据？
我喜欢使用 Genymotion 模拟器以如此出色的速度加载 Android。它有非常好的速度，但仍然有一些不稳定的性能。如何从 Eclipse 中的文件资源管理器访问 Genymotion 模拟器
silverlight - 如果我在 setter 中使用不同的值更改绑定(bind)数据，如何刷新绑定(bind)数据
我需要更改 Silverlight 中文本框的格式。数据通过 MVVM 绑定(bind)。例如，有一个 int 属性，我将 1 添加到 setter 中的值并调用 OnPropertyChanged
youtube - 通过 YouTube 数据 API 访问公共(public)数据，无需身份验证。
我想向 Youtube Data API 提出请求，但我不需要访问任何用户信息。我只想浏览公共(public)视频并根据搜索词显示视频。我可以在未经授权的情况下这样做吗？最佳答案 YouTube
python - 无法让 twilio 显示 'from' 数据，但它会显示 'to' 数据
我已经设置了一个 Twilio 应用程序，我想向人们发送更新，但我不想回复单个文本。我只是想让他们在有问题时打电话。我一切正常，但我想在发送文本时显示传入文本，以确保我不会错过任何问题。我正在使用 p
javascript - 向客户端发送 JSON 数据？ D3.js 渲染 JSON 数据
我有一个带有表单的网站(目前它是纯 HTML，但我们正在切换到 JQuery)。流程是这样的: 接受用户的输入 --- 5 个整数通过 REST 调用网络服务在服务器端运行一些计算...并生成一个
javascript - 如何检测一个 JavaScript 文件只包含 JSON 数据，还是打算包含 JSON 数据？
假设我们有一个名为 configuration.js 的文件，当我们查看内部时，我们会看到: 'use strict'; var profile = { "project": "%Projec
javascript - 在初始 .ajax 调用之外使用 JSON 数据 - 访问剩余的 JSON 数据
这部分是对 Previous Question 的扩展我的: 我现在可以从我的 CI Controller 成功返回 JSON 数据，它返回: {"results":[{"id":"1","Sourc
ios - 删除所有 Couchbase 数据/文档 ios(或删除所有 ios 数据？)
有什么有效的方法可以删除 ios 中 CBL 的所有文档存储？我对此有疑问，或者，如果有人知道如何从本质上使该应用程序像刚刚安装一样，那也会非常有帮助。我们正在努力确保我们的注销实际上将应用程序设置为
javascript - $.post(url, 函数(数据,状态) {警报(数据)});警报()不工作
我有一个 Rails 应用程序，它与其他 Rails 应用程序通信以进行数据插入。我使用 jQuery $.post 方法进行数据插入。对于插入，我的其他 Rails 应用程序显示 200 OK。但在
javascript - 断言错误 : expected { status: 'SUCCESS' , 数据 : [] } to equal { Object (status, 数据)}
我正在为服务于发布请求的 API 调用运行单元测试。我正在传递请求正文，并且必须将响应作为帐户数据返回。但我只收到断言错误注意:数据是从 Azure 中获取的 spec.js const accou

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 子集数据框 Pandas 时间序列