- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
python 3.3.3 Pandas 0.12.0
总的来说,我对 Pandas 和 Python 比较陌生。我有一个使用日期时间索引的 DataFrame(随时间变化的工作时间)。我还有一个休假日期列表(也是日期时间格式)。
我已将 DataFrame 重新采样为 28 天的 block ,我希望添加一个列,其中包含在该 28 天的 block 中休假的天数。
我确信有一些很棒的方法可以通过列表理解来做到这一点,但我能想到的最好的方法是使用一些 for
循环来生成一个列表,然后使用它在 DataFrame 中列出。
我很乐意有人指出我使用不那么笨拙的方法来完成此任务。提前感谢您的任何建议。
num_vaca = []
for idx, month_start in enumerate(df.index):
counter = 0
for day in vaca_days:
if day >= month_start and day <= df.index[idx + 1]:
counter += 1
num_vaca.append(counter)
df['Vacation Days'] = num_vaca
这似乎有效好的,我只是确定有更好的方法。
编辑:我没有很好地解释这个问题,我认为一些例子可能会有所帮助。
vaca_days = [datetime.datetime(2013, 1, 1, 0, 0),
datetime.datetime(2013, 1, 2, 0, 0),
datetime.datetime(2013, 1, 3, 0, 0),
datetime.datetime(2013, 2, 4, 0, 0),
datetime.datetime(2013, 2, 5, 0, 0),
datetime.datetime(2013, 2, 6, 0, 0),
datetime.datetime(2013, 1, 7, 0, 0),
datetime.datetime(2013, 1, 8, 0, 0),
datetime.datetime(2013, 1, 9, 0, 0)]
dr = pd.date_range('11/1/2012', periods = 6, freq = 'M')
df = pd.DataFrame(np.random.randn(len(dr)), index = dr, columns = ['Random'])
df
# Output:
Random
2012-11-30 -0.134878
2012-12-31 0.066865
2013-01-31 0.630906
2013-02-28 -0.512881
2013-03-31 0.361890
2013-04-30 -1.019923
# Code from above
num_vaca = []
for idx, month_start in enumerate(df.index):
counter = 0
for day in vaca_days:
if day >= month_start and day <= df.index[idx + 1]:
counter += 1
num_vaca.append(counter)
df['Vacation Days'] = num_vaca
df
# Output
Random Vacation Days
2012-11-30 -0.134878 0
2012-12-31 0.066865 6
2013-01-31 0.630906 3
2013-02-28 -0.512881 0
2013-03-31 0.361890 0
2013-04-30 -1.019923 0
在处理最后一个索引值和 [idx + 1]
时仍然存在一些问题,因为我还没有定义该时间段应该在何处停止。
2014 年 2 月 10 日更新
我能够让@Andy-Hayden 对工作做出回应,但需要一点努力。以下是我遇到的问题,以及我能找到的最佳解决方法。
#! /usr/bin/env python3
import pandas as pd
import numpy as np
import datetime
# Generate a DataFrame with some random data and 28d date periods
dr = pd.date_range('11/6/2012', periods = 12, freq = 'W-Tue')
df = pd.DataFrame(np.random.randn(len(dr)), index = dr, columns = ['column1'])
df = df.resample(rule = '28D', how = 'mean')
# The start dates for each period
df
# column1
# 2012-11-06 -0.134757
# 2012-12-04 -0.382133
# 2013-01-01 -0.468343
# 2013-01-29 0.000000
# [4 rows x 1 columns]
# Vacation dates
vaca_days = list(pd.date_range(start = '2012-12-1', periods = 12, freq = 'D'))
vaca_days
# Timestamp('2012-12-01 00:00:00', tz=None),
# Timestamp('2012-12-02 00:00:00', tz=None),
# Timestamp('2012-12-03 00:00:00', tz=None),
# Timestamp('2012-12-04 00:00:00', tz=None),
# Timestamp('2012-12-05 00:00:00', tz=None),
# Timestamp('2012-12-06 00:00:00', tz=None),
# Timestamp('2012-12-07 00:00:00', tz=None),
# Timestamp('2012-12-08 00:00:00', tz=None),
# Timestamp('2012-12-09 00:00:00', tz=None),
# Timestamp('2012-12-10 00:00:00', tz=None),
# Timestamp('2012-12-11 00:00:00', tz=None),
# Timestamp('2012-12-12 00:00:00', tz=None)]
# Clearly there should be 3 vacation dates in the 2012-11-06 period
# and 9 vacation dates in the 2013-12-04 period
# ---------------------------
# This gives me wrong numbers, because it tries to start the period on vaca_days[0]
pd.Series(1, vaca_days).resample('28D', how='sum')
# 2012-12-01 12
# 2012-12-29 0
# Freq: 28D, dtype: int64
# No help here
pd.Series(1, vaca_days).resample('28D', how='sum').shift(-1)
# 2012-12-01 0
# 2012-12-29 NaN
# Freq: 28D, dtype: float64
# The only workaround I could figure out: Append on the first start day
vaca_days.append(pd.Timestamp('2012-11-06'))
vaca_series = pd.Series([0] + [1 for each in vaca_days[:-1]], sorted(vaca_days))
vaca_series = vaca_series.resample(rule = '28D', how = sum)
vaca_series
# 2012-11-06 3
# 2012-12-04 9
# 2013-01-01 0
# Freq: 28D, dtype: int64
df['Vacation Days'] = vaca_series
df['Vacation Days'] = df['Vacation Days'].fillna(0)
df
# column1 Vacation Days
# 2012-11-06 -4.761727e-01 3
# 2012-12-04 5.715697e-01 9
# 2013-01-01 4.065451e-02 0
# 2013-01-29 2.781364e-309 0
# [4 rows x 2 columns]
最佳答案
您可以 resample按月使用 sum 作为聚合函数:
In [11]: pd.Series(1, vaca_days).resample('M', how='sum')
Out[11]:
2013-01-31 6
2013-02-28 3
Freq: M, dtype: int64
当您将其设置为列时,它会为您对齐索引:
In [12]: df['vac_days'] = pd.Series(1, vaca_days).resample('M', how='sum')
In [13]: df
Out[13]:
Random vac_days
2012-11-30 -0.134878 NaN
2012-12-31 0.066865 NaN
2013-01-31 0.630906 6
2013-02-28 -0.512881 3
2013-03-31 0.361890 NaN
2013-04-30 -1.019923 NaN
[6 rows x 2 columns]
现在你肯定想要fill in the NaN为 0。给定您想要的解决方案,您似乎想要 shift结果也上升了一个...
In [14]: df['vac_days'].shift(-1).fillna(0)
Out[14]:
2012-11-30 0
2012-12-31 6
2013-01-31 3
2013-02-28 0
2013-03-31 0
2013-04-30 0
Name: vac_days, dtype: float64
In [15]: df['vac_days'] = df['vac_days'].shift(-1).fillna(0)
关于 python Pandas : Count of datetime items between dateindex and next dateindex,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21666802/
目录 count作用 测试 count(*) count(1) count(col) count(id):统计id count(inde
目录 1.初识COUNT 2.COUNT(字段)、COUNT(常量)和COUNT(*)之间的区别 3.COUNT(*)的优化 MyIS
以下 SQL Server 2008 语句之间有什么区别? SELECT COUNT(*) FROM dbo.Regular_Report SELECT COUNT(0) FROM dbo.Regul
如果字符串(短语)中只有元音,它(对我而言)说True;否则说 False。我不明白为什么它总是返回 False,因为 (x >= x) 总是返回 True。我感谢任何人检查此查询的解决方案。 (st
1.概述 在这个文章之前,我一直用count(1) 查询所有数据,以前我们都是说 count(*) 是最慢的。但是这个博客恰恰相反。 对于 count(主键 id) 来说,InnoDB 引擎会遍历整张
这个问题已经有答案了: Count(*) vs Count(1) - SQL Server (13 个回答) 已关闭 8 年前。 我经常发现这三种变体: SELECT COUNT(*) FROM Fo
为什么三个查询的成本相同?我想至少应该有一个更快。否则,只使用关键字 COUNT() 而不是 COUNT(parameter) 就可以了。 例如,以下是不依赖于参数的 COUNT() 示例实现: wh
我有一个“产品”表和一个“评论”表。 我想编写一个查询来返回每个产品的评论的 COUNT 和 AVG。 并且如果没有评论,我希望它为 COUNT 和 AVG 返回 0/null。 产品表 +-----
我会保持简短和亲切,因为我确信我缺少的是一些简单的东西。我正在尝试获取一个 NSMutableArray 的计数,它可以包含可变数量的对象(id 号)。数组是从 JSon 数据创建的,数组本身是完美创
我想知道查询计数的计数。 查询是 sourcetype="cargo_dc_shipping_log" OR sourcetype="cargo_dc_deliver_log" | stats cou
任何人都知道我如何在 SQL 炼金术中进行计数 COUN(IF(table_row = 1 AND table_row2 =2),1,0) 我做了这样的东西, func.COUNT(func.IF((
我有一个有四列的表(销售); id, user_id, product_id, and date_added. 我需要统计某个用户已售出的具有特定 id 的产品数量,并获取该用户当月售出的产品总数。
我是来问这个问题的实现的 MYSQL count of count? 我的问题是将我从一个表中提取结果的结果联系起来,使用它们来查询同一数据库的另一个表 (抱歉,我不是强大的 xySQL)。 我有一个
这是我的查询 SELECT COUNT(*) as total, toys, date FROM T1 WHERE (date >= '2012-06-26'AND date '0') UNION
我有 2 个表:成员,订单。 Members: MemberID, DateCreated Orders: OrderID, DateCreated, MemberID 我想找出给定月份中新成员的数
我最近在一次采访中被问到这个问题。我在 mySQL 中尝试了这个,并得到了相同的结果(最终结果)。All 给出了该特定表中的行数。谁能解释它们之间的主要区别。 最佳答案 没什么,除非您在表格中指定字段
我有一个包含 2157 条记录的表,假设有 3 列(A、B、C),我知道在 A 列中有 2154 个不同的值。 使用连接到 BigQuery 的 Tableau Desktop(及其自身的功能),我得
我试图查看当天的车辆销量,并创建另外两个列来告诉我过去 10 天的销量和过去 20 天的销量。同一天和同一辆车可能有多个销售。我的目标是获取不同的车辆和日期并查看他们的销售数量。 N 天计数应与该行中
我有一个非常简单的问题。我想知道某个数据库行是否存在。 我通常使用: SELECT 1 FROM `my_table` WHERE `field_x` = 'something' 然后我获取结果: $
我想要的输出的描述:我想要两个线程 Gaurav 和 john 完成一个 while 循环(从 1 到 8),这样无论哪个线程启动 ist,都会运行 5 次迭代(即直到 count=5 ) ,然后进入
我是一名优秀的程序员,十分优秀!