- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在此示例中,我们以 1 分钟的分辨率采样了两天的数据,为我们提供了 2880 个测量值。测量值按顺序跨多个时区收集:前 240 分钟在欧洲/伦敦收集,其余 2640 分钟在“美国/洛杉矶”收集。
import pandas as pd
import numpy as np
df=pd.DataFrame(index=pd.DatetimeIndex(pd.date_range('2015-03-29 00:00','2015-03-30 23:59',freq='1min',tz='UTC')))
df.loc['2015-03-29 00:00':'2015-03-29 04:00','timezone']='Europe/London'
df.loc['2015-03-29 04:00':'2015-03-30 23:59','timezone']='America/Los_Angeles'
df['sales1']=np.random.random_integers(100,size=len(df))
df['sales2']=np.random.random_integers(10,size=len(df))
要计算多天 24 小时周期内每分钟的平均销售额(按照 UTC 时间),以下方法效果很好:
utc_sales=df.groupby([df.index.hour,df.index.minute]).mean()
utc_sales.set_index(pd.date_range("00:00","23:59", freq="1min").time,inplace=True)
这种分组方法还可用于根据其他两个时区之一(例如“欧洲/伦敦”)计算平均销售额。
df['London']=df.index.tz_convert('Europe/London')
london_sales=df.groupby([df['London'].dt.hour,df['London'].dt.minute]).mean()
london_sales.set_index(pd.date_range("00:00","23:59", freq="1min").time,inplace=True)
但是,我正在努力想出一种有效的方法来计算 24 小时周期内每分钟的平均销售额(按照本地时间)。我尝试了与上面相同的方法,但是当同一个系列中存在多个时区时,groupby 会恢复到 utc 中的索引。
def calculate_localtime(x):
return pd.to_datetime(x.name,unit='s').tz_convert(x['timezone'])
df['localtime']=df.apply(calculate_localtime,axis=1)
local_sales=df.groupby([df['localtime'].dt.hour,df['localtime'].dt.minute]).mean()
local_sales.set_index(pd.date_range("00:00","23:59",freq="1min").time,inplace=True)
我们可以验证 local_sales 与 utc_sales 相同,因此这种方法不起作用。
In [8]: np.unique(local_sales == utc_sales)
Out[8]: array([ True], dtype=bool)
有人可以推荐一种适合大型数据集和多个时区的方法吗?
最佳答案
这是一种获得我认为您想要的东西的方法。这需要 pandas 0.17.0
按照您已有的方式创建数据
import pandas as pd
import numpy as np
pd.options.display.max_rows=12
np.random.seed(1234)
df=pd.DataFrame(index=pd.DatetimeIndex(pd.date_range('2015-03-29 00:00','2015-03-30 23:59',freq='1min',tz='UTC')))
df.loc['2015-03-29 00:00':'2015-03-29 04:00','timezone']='Europe/London'
df.loc['2015-03-29 04:00':'2015-03-30 23:59','timezone']='America/Los_Angeles'
df['sales1']=np.random.random_integers(100,size=len(df))
df['sales2']=np.random.random_integers(10,size=len(df))
In [79]: df
Out[79]:
timezone sales1 sales2
2015-03-29 00:00:00+00:00 Europe/London 48 6
2015-03-29 00:01:00+00:00 Europe/London 84 1
2015-03-29 00:02:00+00:00 Europe/London 39 1
2015-03-29 00:03:00+00:00 Europe/London 54 10
2015-03-29 00:04:00+00:00 Europe/London 77 5
2015-03-29 00:05:00+00:00 Europe/London 25 9
... ... ... ...
2015-03-30 23:54:00+00:00 America/Los_Angeles 77 8
2015-03-30 23:55:00+00:00 America/Los_Angeles 16 4
2015-03-30 23:56:00+00:00 America/Los_Angeles 55 3
2015-03-30 23:57:00+00:00 America/Los_Angeles 18 1
2015-03-30 23:58:00+00:00 America/Los_Angeles 3 2
2015-03-30 23:59:00+00:00 America/Los_Angeles 52 2
[2880 rows x 3 columns]
根据时区进行透视;这将创建一个时区分隔的多索引
x = pd.pivot_table(df.reset_index(),values=['sales1','sales2'],index='index',columns='timezone').swaplevel(0,1,axis=1)
x.columns.names = ['timezone','sales']
In [82]: x
Out[82]:
timezone America/Los_Angeles Europe/London America/Los_Angeles Europe/London
sales sales1 sales1 sales2 sales2
index
2015-03-29 00:00:00+00:00 NaN 48 NaN 6
2015-03-29 00:01:00+00:00 NaN 84 NaN 1
2015-03-29 00:02:00+00:00 NaN 39 NaN 1
2015-03-29 00:03:00+00:00 NaN 54 NaN 10
2015-03-29 00:04:00+00:00 NaN 77 NaN 5
2015-03-29 00:05:00+00:00 NaN 25 NaN 9
... ... ... ... ...
2015-03-30 23:54:00+00:00 77 NaN 8 NaN
2015-03-30 23:55:00+00:00 16 NaN 4 NaN
2015-03-30 23:56:00+00:00 55 NaN 3 NaN
2015-03-30 23:57:00+00:00 18 NaN 1 NaN
2015-03-30 23:58:00+00:00 3 NaN 2 NaN
2015-03-30 23:59:00+00:00 52 NaN 2 NaN
[2880 rows x 4 columns]
创建我们要使用的石斑鱼,即本地区域中的小时和分钟。我们将根据掩码 IOW 填充它们。如果 sales1/sales2 都不为空,我们将使用该(本地)区域的小时/分钟
hours = pd.Series(index=x.index)
minutes = pd.Series(index=x.index)
for tz in ['America/Los_Angeles', 'Europe/London' ]:
local = df.index.tz_convert(tz)
x[(tz,'tz')] = local
mask = x[(tz,'sales1')].notnull() & x[(tz,'sales2')].notnull()
hours.iloc[mask.values] = local.hour[mask.values]
minutes.iloc[mask.values] = local.minute[mask.values]
x = x.sortlevel(axis=1)
在上述之后。 (请注意,这可能有点简化,这意味着我们不需要实际记录本地时区,只需计算小时/分钟)。
Out[84]:
timezone America/Los_Angeles Europe/London
sales sales1 sales2 tz sales1 sales2 tz
index
2015-03-29 00:00:00+00:00 NaN NaN 2015-03-28 17:00:00-07:00 48 6 2015-03-29 00:00:00+00:00
2015-03-29 00:01:00+00:00 NaN NaN 2015-03-28 17:01:00-07:00 84 1 2015-03-29 00:01:00+00:00
2015-03-29 00:02:00+00:00 NaN NaN 2015-03-28 17:02:00-07:00 39 1 2015-03-29 00:02:00+00:00
2015-03-29 00:03:00+00:00 NaN NaN 2015-03-28 17:03:00-07:00 54 10 2015-03-29 00:03:00+00:00
2015-03-29 00:04:00+00:00 NaN NaN 2015-03-28 17:04:00-07:00 77 5 2015-03-29 00:04:00+00:00
2015-03-29 00:05:00+00:00 NaN NaN 2015-03-28 17:05:00-07:00 25 9 2015-03-29 00:05:00+00:00
... ... ... ... ... ... ...
2015-03-30 23:54:00+00:00 77 8 2015-03-30 16:54:00-07:00 NaN NaN 2015-03-31 00:54:00+01:00
2015-03-30 23:55:00+00:00 16 4 2015-03-30 16:55:00-07:00 NaN NaN 2015-03-31 00:55:00+01:00
2015-03-30 23:56:00+00:00 55 3 2015-03-30 16:56:00-07:00 NaN NaN 2015-03-31 00:56:00+01:00
2015-03-30 23:57:00+00:00 18 1 2015-03-30 16:57:00-07:00 NaN NaN 2015-03-31 00:57:00+01:00
2015-03-30 23:58:00+00:00 3 2 2015-03-30 16:58:00-07:00 NaN NaN 2015-03-31 00:58:00+01:00
2015-03-30 23:59:00+00:00 52 2 2015-03-30 16:59:00-07:00 NaN NaN 2015-03-31 00:59:00+01:00
[2880 rows x 6 columns]
这使用新的时区表示形式(0.17.0 中)。
In [85]: x.dtypes
Out[85]:
timezone sales
America/Los_Angeles sales1 float64
sales2 float64
tz datetime64[ns, America/Los_Angeles]
Europe/London sales1 float64
sales2 float64
tz datetime64[ns, Europe/London]
dtype: object
结果
x.groupby([hours,minutes]).mean()
timezone America/Los_Angeles Europe/London
sales sales1 sales2 sales1 sales2
0 0 62.5 5.5 48 6
1 52.0 7.0 84 1
2 89.0 3.5 39 1
3 67.5 6.5 54 10
4 41.0 5.5 77 5
5 81.0 5.5 25 9
... ... ... ... ...
23 54 76.5 4.5 NaN NaN
55 37.5 5.0 NaN NaN
56 60.5 8.0 NaN NaN
57 87.5 7.0 NaN NaN
58 77.5 6.0 NaN NaN
59 31.0 5.5 NaN NaN
[1440 rows x 4 columns]
关于python - 根据本地时间计算 24 小时周期内每分钟的平均销售额 (HH :MM),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33201680/
已关闭。这个问题是 off-topic 。目前不接受答案。 想要改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 已关闭10 年前。 Improve th
我正在尝试将 JSON 发送到我的服务器并作为结果检索 JSON。例如发送用户名和密码并取回 token 和其他内容。 这就是我正在为发送的 HTTP 请求所做的。我现在如何检索同一请求中的内容?
我有以下 xts 矩阵: > options(digits.secs = 6) > set.seed(1234) > xts(1:10, as.POSIXlt(1366039619, tz="EST"
我目前正在开发一个应用程序,当用户到达某个位置时,它会提醒用户。我希望这个应用程序也在后台运行并搜索解决方案。 在 AppStore 中,我发现了一款名为“Sleep Cycle”的应用程序,它可
我想创建一个基于 farbtastic color picker 的颜色选择器。我想要实现的是添加我想要链接到色轮的 RGB slider 。这是我到目前为止所拥有的。 app.controller(
RFC 5545 允许 RDATE 属性具有 PERIOD 数据类型。该数据类型的语义是什么?据我所知,这是未指定的。它会改变事件的持续时间吗?如果时区更改且没有持续时间怎么办? 最佳答案 尽管我
在 CodinGame学习平台,C# 教程中用作示例的问题之一是: The aim of this exercise is to check the presence of a number in a
我听说网上有一本英特尔书,它描述了特定汇编指令所需的 CPU 周期,但我找不到(经过努力)。谁能告诉我如何找到CPU周期? 这是一个例子,在下面的代码中,mov/lock 是 1 个 CPU 周期,x
据我所知,Java GC有次要GC(低成本)和主要GC周期(高成本)。如果对象在本地范围内,则会在 Minor GC 中清理它。如果对象的引用存储在代码中的其他位置,则它会在主 GC 中被清除。 例如
到目前为止,我有一个很好的自旋锁,可以用作 intendend: std::atomic_flag barrier = ATOMIC_FLAG_INIT; inline void lo
晚上好,我将 cycle2 与 prev 和 next 函数一起使用,但我无法将 prev 和 next 函数置于图像下方的中心。我环顾四周,我知道这会很愚蠢,但我就是看不到它。非常令人沮丧。谢谢加里
出于教育目的,我想知道在优化(在不同级别)和编译之后执行函数需要多少 CPU 周期。有没有办法分析代码或可执行文件以获得可重现的答案?我在 64 位 Windows 7 Pro 上使用 Eclipse
我想彻底测量和调整我的 C/C++ 代码,以便在 x86_64 系统上更好地使用缓存。我知道如何使用计数器(我的 Windows 机器上的 QueryPerformanceCounter)来测量时间,
我尝试将一些数据分组到每四周一次的存储桶中,并使用 pd.Grouper(key='created_at', freq='4W')。我希望这些组是这样的,如果我有从 2019-08-26 到 2019
我正在做一个关于随机数的大型学校项目,但我找不到 Math.random() 的句点。我安装了 7.0.800.15 版本,并且正在使用 Windows 10 计算机。我试过用一个简单的程序来确定周期
我正在努力解决我们生产环境中垃圾收集利用率高的问题,我想知道设置一个大的堆大小来保证老年代永远不会被填满是否会阻止触发主要的 GC 周期。 为了实现这一点,我想有一个特定的阈值标记会触发主要的 GC
我想测量在 Python 3 中执行加法运算所需的时钟周期数。 我写了一个程序来计算加法运算的平均值: from timeit import timeit def test(n): for i
我正在寻找一种方法来测量线程上的函数调用所花费的 cpu 周期。 示例伪代码: void HostFunction() { var startTick = CurrentThread.Cur
就 CPU 周期而言,malloc() 的成本是多少?(Vista/OS,最新版本的 gcc,最高优化级别,...) 基本上,我正在实现一个复杂的 DAG 结构(类似于链表)由一些 16B(不太常见)
C/C++ 中的类型转换会导致额外的 CPU 周期吗? 我的理解是,至少在某些情况下应该消耗额外的 CPU 周期。就像从浮点类型转换为整数一样,CPU 需要将浮点结构转换为整数。 float a=2.
我是一名优秀的程序员,十分优秀!