- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想从降雨时间序列中提取降雨事件,同时在同一事件中允许 X 干燥小时数(作为参数)。因此,对于降雨事件,我的意思是近似连续降雨 (RF > 0),内部最大连续 X 个干燥小时数 (RF = 0)。
我实际上不想用迭代器和增量来做这件事,我正在寻找可以缓解压力的 pandas 或 numpy/scipy 工具。
这是我的数据框示例。 RF
是原始降雨,RFfill
是用于填充无数据的 RF.interpolate()。 evtId
是为存储事件唯一 ID 而创建的字段。
TS RF RFfill evtId
0 1997-11-27 14:00:00 0.3 0.3 NaN
1 1997-11-27 15:00:00 1.1 1.1 NaN
2 1997-11-27 16:00:00 0.2 0.2 NaN
3 1997-11-27 17:00:00 0.0 0.0 NaN
4 1997-11-27 18:00:00 0.0 0.0 NaN
5 1997-11-27 19:00:00 1.1 1.1 NaN
6 1997-11-27 20:00:00 0.6 0.6 NaN
7 1997-11-27 21:00:00 0.0 0.0 NaN
8 1997-11-27 22:00:00 0.0 0.0 NaN
9 1997-11-27 23:00:00 0.0 0.0 NaN
10 1997-11-28 00:00:00 0.0 0.0 NaN
11 1997-11-28 01:00:00 0.0 0.0 NaN
12 1997-11-28 02:00:00 0.0 0.0 NaN
13 1997-11-28 03:00:00 0.0 0.0 NaN
14 1997-11-28 04:00:00 0.0 0.0 NaN
15 1997-11-28 05:00:00 0.0 0.0 NaN
16 1997-11-28 06:00:00 0.0 0.0 NaN
17 1997-11-28 07:00:00 0.0 0.0 NaN
18 1997-11-28 08:00:00 0.0 0.0 NaN
19 1997-11-28 09:00:00 0.8 0.8 NaN
20 1997-11-28 10:00:00 1.1 1.1 NaN
21 1997-11-28 11:00:00 2.3 2.3 NaN
22 1997-11-28 12:00:00 1.4 1.4 NaN
23 1997-11-28 13:00:00 0.4 0.4 NaN
24 1997-11-28 14:00:00 0.2 0.2 NaN
25 1997-11-28 15:00:00 0.0 0.0 NaN
26 1997-11-28 16:00:00 0.0 0.0 NaN
27 1997-11-28 17:00:00 0.0 0.0 NaN
28 1997-11-28 18:00:00 0.0 0.0 NaN
29 1997-11-28 19:00:00 0.0 0.0 NaN
30 1997-11-28 20:00:00 0.0 0.0 NaN
这是允许干燥时间为 5 小时的预期输出:
TS RF RFfill evtId
0 1997-11-27 14:00:00 0.3 0.3 0
1 1997-11-27 15:00:00 1.1 1.1 0
2 1997-11-27 16:00:00 0.2 0.2 0
3 1997-11-27 17:00:00 0.0 0.0 0
4 1997-11-27 18:00:00 0.0 0.0 0
5 1997-11-27 19:00:00 1.1 1.1 0
6 1997-11-27 20:00:00 0.6 0.6 0
7 1997-11-27 21:00:00 0.0 0.0 NaN
8 1997-11-27 22:00:00 0.0 0.0 NaN
9 1997-11-27 23:00:00 0.0 0.0 NaN
10 1997-11-28 00:00:00 0.0 0.0 NaN
11 1997-11-28 01:00:00 0.0 0.0 NaN
12 1997-11-28 02:00:00 0.0 0.0 NaN
13 1997-11-28 03:00:00 0.0 0.0 NaN
14 1997-11-28 04:00:00 0.0 0.0 NaN
15 1997-11-28 05:00:00 0.0 0.0 NaN
16 1997-11-28 06:00:00 0.0 0.0 NaN
17 1997-11-28 07:00:00 0.0 0.0 NaN
18 1997-11-28 08:00:00 0.0 0.0 NaN
19 1997-11-28 09:00:00 0.8 0.8 1
20 1997-11-28 10:00:00 1.1 1.1 1
21 1997-11-28 11:00:00 2.3 2.3 1
22 1997-11-28 12:00:00 1.4 1.4 1
23 1997-11-28 13:00:00 0.4 0.4 1
24 1997-11-28 14:00:00 0.2 0.2 1
25 1997-11-28 15:00:00 0.0 0.0 NaN
26 1997-11-28 16:00:00 0.0 0.0 NaN
27 1997-11-28 17:00:00 0.0 0.0 NaN
28 1997-11-28 18:00:00 0.0 0.0 NaN
29 1997-11-28 19:00:00 0.0 0.0 NaN
30 1997-11-28 20:00:00 0.0 0.0 NaN
有什么想法可以帮助我实现这一目标吗?
最佳答案
import numpy as np
import pandas as pd
import scipy.ndimage as ndimage
df = pd.DataFrame({'RF': [ 0.3, 1.1, 0.2, 0. , 0. , 0. , 0. , 0. ,
1.1, 0.6, 0. , 0. , 0. , 0. , 0. , 0. ,
0.8, 1.1, 2.3, 1.4, 0.4, 0.2, 0. , 0. ,
0. , 0. , 0. , 0. ]})
consecutive = 5
mask = df['RF'] > 0
df['mask'] = mask
df['dilation'] = ndimage.binary_dilation(mask, structure=[1]*(consecutive+1))
df['erosion'] = ndimage.binary_erosion(df['dilation'],
structure=[1]*(consecutive+1), border_value=1)
df['labeled'], nobjs = ndimage.label(df['erosion'])
df['evtId'] = np.where(df['labeled'] > 0, df['labeled']-1, np.nan)
print(df[['RF', 'evtId']])
产量
# RF evtId
# 0 0.3 0
# 1 1.1 0
# 2 0.2 0
# 3 0.0 0
# 4 0.0 0
# 5 0.0 0
# 6 0.0 0
# 7 0.0 0
# 8 1.1 0
# 9 0.6 0
# 10 0.0 NaN
# 11 0.0 NaN
# 12 0.0 NaN
# 13 0.0 NaN
# 14 0.0 NaN
# 15 0.0 NaN
# 16 0.8 1
# 17 1.1 1
# 18 2.3 1
# 19 1.4 1
# 20 0.4 1
# 21 0.2 1
# 22 0.0 NaN
# 23 0.0 NaN
# 24 0.0 NaN
# 25 0.0 NaN
# 26 0.0 NaN
# 27 0.0 NaN
说明:首先准备一个二进制掩码,它是True where df['RF'] > 0
:
mask = (df['RF'] > 0)
df['mask'] = mask
# RF mask
# 0 0.3 True
# 1 1.1 True
# 2 0.2 True
# 3 0.0 False
# 4 0.0 False
# 5 0.0 False
# 6 0.0 False
# 7 0.0 False
# 8 1.1 True
# 9 0.6 True
# ...
接下来,dilate将由 5 个或更少的 False
(非雨天)分隔的 True
(雨天)岛连接在一起的掩码:
df['dilation'] = ndimage.binary_dilation(mask, structure=[1]*(consecutive+1))
# RF mask dilation
# 0 0.3 True True
# 1 1.1 True True
# 2 0.2 True True
# 3 0.0 False True <--,
# 4 0.0 False True |
# 5 0.0 False True | dilation filled over 5 rainy days
# 6 0.0 False True |
# 7 0.0 False True <--'
# 8 1.1 True True
# 9 0.6 True True
# 10 0.0 False True <-- But the `True`s extend a bit too far
# 11 0.0 False True <--
# 12 0.0 False False
# 13 0.0 False True
# 14 0.0 False True
# 15 0.0 False True
# 16 0.8 True True
# 17 1.1 True True
# 18 2.3 True True
# 19 1.4 True True
# 20 0.4 True True
# 21 0.2 True True
# 22 0.0 False True
# 23 0.0 False True
# 24 0.0 False False
# 25 0.0 False False
# 26 0.0 False False
# 27 0.0 False False
下次使用binary erosion删除延伸过远的 True
。
df['erosion'] = ndimage.binary_erosion(df['dilation'], structure=[1]*(consecutive+1),
border_value=1)
# RF mask dilation erosion
# 0 0.3 True True True
# 1 1.1 True True True
# 2 0.2 True True True
# 3 0.0 False True True
# 4 0.0 False True True
# 5 0.0 False True True
# 6 0.0 False True True
# 7 0.0 False True True
# 8 1.1 True True True
# 9 0.6 True True True
# 10 0.0 False True False <--,
# 11 0.0 False True False |
# 12 0.0 False False False | The Falses have been expanded
# 13 0.0 False True False | (The Trues eroded)
# 14 0.0 False True False |
# 15 0.0 False True False <--'
# 16 0.8 True True True
# 17 1.1 True True True
# 18 2.3 True True True
# 19 1.4 True True True
# 20 0.4 True True True
# 21 0.2 True True True
# 22 0.0 False True False
# 23 0.0 False True False
# 24 0.0 False False False
# 25 0.0 False False False
# 26 0.0 False False False
# 27 0.0 False False False
现在 True
表示“降雨事件”,我们可以使用 ndimage.label
为每个降雨事件分配一个唯一的编号。 :
df['labeled'], nobjs = ndimage.label(df['erosion'])
# RF mask dilation erosion labeled
# 0 0.3 True True True 1
# 1 1.1 True True True 1
# 2 0.2 True True True 1
# 3 0.0 False True True 1
# 4 0.0 False True True 1
# 5 0.0 False True True 1
# 6 0.0 False True True 1
# 7 0.0 False True True 1
# 8 1.1 True True True 1
# 9 0.6 True True True 1
# 10 0.0 False True False 0
# 11 0.0 False True False 0
# 12 0.0 False False False 0
# 13 0.0 False True False 0
# 14 0.0 False True False 0
# 15 0.0 False True False 0
# 16 0.8 True True True 2
# 17 1.1 True True True 2
# 18 2.3 True True True 2
# 19 1.4 True True True 2
# 20 0.4 True True True 2
# 21 0.2 True True True 2
# 22 0.0 False True False 0
# 23 0.0 False True False 0
# 24 0.0 False False False 0
# 25 0.0 False False False 0
# 26 0.0 False False False 0
# 27 0.0 False False False 0
并在df['labeled'] > 0
时使用np.where
将标签号减一,赋值给np.nan
否则:
df['evtId'] = np.where(df['labeled'] > 0, df['labeled']-1, np.nan)
# RF mask dilation erosion labeled evtId
# 0 0.3 True True True 1 0
# 1 1.1 True True True 1 0
# 2 0.2 True True True 1 0
# 3 0.0 False True True 1 0
# 4 0.0 False True True 1 0
# 5 0.0 False True True 1 0
# 6 0.0 False True True 1 0
# 7 0.0 False True True 1 0
# 8 1.1 True True True 1 0
# 9 0.6 True True True 1 0
# 10 0.0 False True False 0 NaN
# 11 0.0 False True False 0 NaN
# 12 0.0 False False False 0 NaN
# 13 0.0 False True False 0 NaN
# 14 0.0 False True False 0 NaN
# 15 0.0 False True False 0 NaN
# 16 0.8 True True True 2 1
# 17 1.1 True True True 2 1
# 18 2.3 True True True 2 1
# 19 1.4 True True True 2 1
# 20 0.4 True True True 2 1
# 21 0.2 True True True 2 1
# 22 0.0 False True False 0 NaN
# 23 0.0 False True False 0 NaN
# 24 0.0 False False False 0 NaN
# 25 0.0 False False False 0 NaN
# 26 0.0 False False False 0 NaN
# 27 0.0 False False False 0 NaN
请注意,先膨胀后腐 eclipse 称为 closing .原因为什么我使用 ndimage.binary_dilation
和 ndimage.binary_erosion
而不是只是调用 ndimage.binary_closing
是因为我需要设置border_value=1
以防止边框边缘被侵 eclipse 。比较 df['erosion']
和
ndimage.binary_closing(mask, structure=[1]*(consecutive+1))
您会看到不同之处。
关于python - 如何使用 Pandas 识别近似(阈值定义)连续的非空数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32520993/
我已经为使用 JGroups 编写了简单的测试。有两个像这样的简单应用程序 import org.jgroups.*; import org.jgroups.conf.ConfiguratorFact
我有一个通过 ajax 检索的 json 编码数据集。我尝试检索的一些数据点将返回 null 或空。 但是,我不希望将那些 null 或空值显示给最终用户,或传递给其他函数。 我现在正在做的是检查
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: Why does one often see “null != variable” instead of “
嗨在我们公司,他们遵循与空值进行比较的严格规则。当我编码 if(variable!=null) 在代码审查中,我收到了对此的评论,将其更改为 if(null!=variable)。上面的代码对性能有影
我正在尝试使用 native Cordova QR 扫描仪插件编译项目,但是我不断收到此错误。据我了解,这是代码编写方式的问题,它向构造函数发送了错误的值,或者根本就没有找到构造函数。那么我该如何解决
我在装有 Java 1.8 的 Windows 10 上使用 Apache Nutch 1.14。我已按照 https://wiki.apache.org/nutch/NutchTutorial 中提
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: what is “=null” and “ IS NULL” Is there any difference bet
Three-EyedRaven 内网渗透初期,我们都希望可以豪无遗漏的尽最大可能打开目标内网攻击面,故,设计该工具的初衷是解决某些工具内网探测速率慢、运行卡死、服务爆破误报率高以及socks流
我想在Scala中像在Java中那样做: public void recv(String from) { recv(from, null); } public void recv(String
我正在尝试从一组图像补丁中创建一个密码本。我已将图像(Caltech 101)分成20 X 20图像块。我想为每个补丁创建一个SIFT描述符。但是对于某些图像补丁,它不返回任何描述符/关键点。我尝试使
我在验证器类中自动连接的两个服务有问题。这些服务工作正常,因为在我的 Controller 中是自动连接的。我有一个 applicationContext.xml 文件和 MyApp-servlet.
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 已关闭10 年前。 问题必须表现出对要解决的问题的最低程度的了解。告诉我们您尝试过做什么,为什么不起作用,以
大家好,我正在对数据库进行正常的选择,但是 mysql_num_rowsis 为空,我不知道为什么,我有 7 行选择。 如果您发现问题,请告诉我。 真的谢谢。 代码如下: function get_b
我想以以下格式创建一个字符串:id[]=%@&stringdata[]=%@&id[]=%@&stringdata[]=%@&id[]=%@&stringdata[]=%@&等,在for循环中,我得到
我正在尝试使用以下代码将URL转换为字符串: NSURL *urlOfOpenedFile = _service.myURLRequest.URL; NSString *fileThatWasOpen
我正在尝试将NSNumber传递到正在工作的UInt32中。然后,我试图将UInt32填充到NSData对象中。但是,这在这里变得有些时髦... 当我尝试将NSData对象中的内容写成它返回的字符串(
我正在进行身份验证并收到空 cookie。我想存储这个 cookie,但服务器没有返回给我 cookie。但响应代码是 200 ok。 httpConn.setRequestProperty(
我认为 Button bTutorial1 = (Button) findViewById(R.layout.tutorial1); bTutorial1.setOnClickListener
我的 Controller 中有这样的东西: model.attribute("hiringManagerMap",hiringManagerMap); 我正在访问此 hiringManagerMap
我想知道如何以正确的方式清空列表。在 div 中有一个列表然后清空 div 或列表更好吗? 我知道这是一个蹩脚的问题,但请帮助我理解这个 empty() 函数:) 案例)如果我运行这个脚本会发生什么:
我是一名优秀的程序员,十分优秀!