- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我有一个 pandas 数据框,其中包含不同时间尺度的信息,即在某些时期我每秒有 100 个数据点,而在其他时期我每分钟有 1 个数据点。
我的目标是使用固定时间窗口(例如:1 秒)重新采样此数据帧,在上采样时使用 last 进行正则化,在下采样时使用均值。
此外,我希望指定算法执行这两种操作(下采样和上采样)的顺序,因为我需要先执行上采样(使用 last),然后再执行下采样(使用 mean)。
这完全可以使用 pandas resample 函数吗?
例如,在下面的示例代码中,我希望在结果数据框中包含以下值:0 到 10 秒之间为 0.5(平均),10 到 19 秒之间为 0(最后),19 到 39 之间为 10秒。
import pandas as pd
import numpy as np
df1 = pd.DataFrame({'value' : np.repeat(1,10)}, index=pd.date_range('2010-01-01 00:00:00', periods=10, freq='1S'))
df2 = pd.DataFrame({'value' : np.repeat(0,10)}, index=pd.date_range('2010-01-01 00:00:00.5', periods=10, freq='1S'))
df3 = pd.DataFrame({'value' : np.repeat(10,3)}, index=pd.date_range('2010-01-01 00:00:19', periods=3, freq='10S'))
df = pd.concat([df1, df2, df3], axis=0)
df = df.sort_index()
df.resample(rule='1S', fill_method='ffill', kind='timestamp', how='mean')
你建议我如何解决这个问题?
编辑:我的真实数据框很大,因此我想尽量减少操作的数量,尤其是那些涉及对象复制的操作。
最佳答案
首先使用下采样进行传统重采样:
df_new = df.resample(rule='1S')
然后是上采样,您可以在其中更新
下采样数据,但不要覆盖它。您正在使用前向上采样数据填充空白:
df_new.update(df.resample(rule='1S', fill_method='ffill', kind='timestamp', how='last'),
overwrite=False)
>>> df_new
value
2010-01-01 00:00:00 0.5
2010-01-01 00:00:01 0.5
2010-01-01 00:00:02 0.5
2010-01-01 00:00:03 0.5
2010-01-01 00:00:04 0.5
2010-01-01 00:00:05 0.5
2010-01-01 00:00:06 0.5
2010-01-01 00:00:07 0.5
2010-01-01 00:00:08 0.5
2010-01-01 00:00:09 0.5
2010-01-01 00:00:10 0.0
2010-01-01 00:00:11 0.0
2010-01-01 00:00:12 0.0
2010-01-01 00:00:13 0.0
2010-01-01 00:00:14 0.0
2010-01-01 00:00:15 0.0
2010-01-01 00:00:16 0.0
2010-01-01 00:00:17 0.0
2010-01-01 00:00:18 0.0
2010-01-01 00:00:19 10.0
2010-01-01 00:00:20 10.0
2010-01-01 00:00:21 10.0
2010-01-01 00:00:22 10.0
2010-01-01 00:00:23 10.0
2010-01-01 00:00:24 10.0
2010-01-01 00:00:25 10.0
2010-01-01 00:00:26 10.0
2010-01-01 00:00:27 10.0
2010-01-01 00:00:28 10.0
2010-01-01 00:00:29 10.0
2010-01-01 00:00:30 10.0
2010-01-01 00:00:31 10.0
2010-01-01 00:00:32 10.0
2010-01-01 00:00:33 10.0
2010-01-01 00:00:34 10.0
2010-01-01 00:00:35 10.0
2010-01-01 00:00:36 10.0
2010-01-01 00:00:37 10.0
2010-01-01 00:00:38 10.0
2010-01-01 00:00:39 10.0
您不能在单个 resample
操作中混合上采样/下采样。只要您获得所需的结果,我不确定为什么操作顺序对您很重要。
关于python - pandas - resample - 在下采样之前进行上采样,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32845284/
我正在寻找一种方法来对数字进行 1:40、3812 次(长度 = 3812)的采样,并进行替换 - 但对其进行限制,使每个数字的使用次数不会超过 100 次。有没有办法在采样命令 (sample())
如果我想随机采样 pandas 数据帧,我可以使用 pandas.DataFrame.sample . 假设我随机抽取 80% 的行。如何自动获取另外 20% 未选取的行? 最佳答案 正如 Lager
我使用以下函数在每个图像中采样点。如果batch_size为None,tf.range会给出错误。如何在 tensorflow 中采样 def sampling(binary_selection,nu
我想知道是否有任何方法可以循环浏览 .wav 文件以获取 wav 文件中特定点的振幅/DB。我现在正在将它读入一个字节数组,但这对我来说没有任何帮助。 我将它与我开发的一些硬件结合使用,这些硬件将光数
我有一个日期时间的时间序列,双列存储在 mySQL 中,并且希望每分钟对时间序列进行采样(即以一分钟为间隔提取最后一个值)。在一个 select 语句中是否有一种有效的方法来做到这一点? 蛮力方式将涉
我正在为延迟渲染管道准备好我的一个小型 DirectX 11.0 项目中的一切。但是,我在从像素着色器中对深度缓冲区进行采样时遇到了很多麻烦。 首先我定义深度纹理及其着色器资源 View :
问题出现在量子值的样本上。情况是: 有一个表支付(payments): id_user[int] sum [int] date[date] 例如, sum(数量) 可以是 0 到 100,000 之间
这是一个理论问题。我目前正在研究渲染方程,我不明白在哪种情况下区域采样或半球采样更好以及为什么。 我想知道的另一件事是,如果我们采用两种方法的平均值,结果是否会更好? 最佳答案 Veach 和 Gui
我有一个 4x4 阵列,想知道是否有办法从它的任何位置随机抽取一个 2x2 正方形,允许正方形在到达边缘时环绕。 例如: >> A = np.arange(16).reshape(4,-1) >> s
我想构建 HBase 表的行键空间的随机样本。 例如,我希望 HBase 中大约 1% 的键随机分布在整个表中。执行此操作的最佳方法是什么? 我想我可以编写一个 MapReduce 作业来处理所有数据
当像这样在 GLSL 中对纹理进行采样时: vec4 color = texture(mySampler, myCoords); 如果没有纹理绑定(bind)到 mySampler,颜色似乎总是 (0
我考虑过的一些方法: 继承自Model类 Sampled softmax in tensorflow keras 继承自Layers类 How can I use TensorFlow's sampl
我有表clients,其中包含id、name、company列。 表agreements,其中包含id、client_id、number、created_at列. 一对多关系。 我的查询: SELEC
在具有许多类的分类问题中,tensorflow 文档建议使用 sampled_softmax_loss通过一个简单的 softmax减少训练时间。 根据docs和 source (第 1180 行),
首先,我想从三个数据帧(每个 150 行)中随机抽取样本并连接结果。其次,我想尽可能多地重复这个过程。 对于第 1 部分,我使用以下函数: def get_sample(n_A, n_B, n_C):
我正在尝试编写几个像素着色器以应用于类似于 Photoshop 效果的图像。比如这个效果: http://www.geeks3d.com/20110428/shader-library-swirl-p
使用 Activity Monitor/Instruments/Shark 进行采样将显示充满 Python 解释器 C 函数的堆栈跟踪。如果能看到相应的 Python 符号名称,我会很有帮助。是否有
我正在使用GAPI API来访问Google Analytics(分析),而不是直接自己做(我知道有点懒...)。我看过类文件,但看不到任何用于检查采样的内置函数。我想知道使用它的人是否找到了一种方法
我正在尝试从 Peoplesoft 数据库中随机抽取总体样本。在线搜索使我认为 select 语句的 Sample 子句可能是我们使用的一个可行选项,但是我无法理解 Sample 子句如何确定返回的样
我有一个程序,在其中我只是打印到 csv,我想要每秒正好 100 个样本点,但我不知道从哪里开始或如何做!请帮忙! from datetime import datetime import panda
我是一名优秀的程序员,十分优秀!