- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在使用此代码通过滚动窗口在我的数据框上应用函数 (funcX
)。主要问题是此数据框 (data
) 的大小非常大,我正在寻找一种更快的方法来完成此任务。
import numpy as np
def funcX(x):
x = np.sort(x)
xd = np.delete(x, 25)
med = np.median(xd)
return (np.abs(x - med)).mean() + med
med_out = data.var1.rolling(window = 51, center = True).apply(funcX, raw = True)
使用这个函数的唯一原因是计算出的中位数是去掉中间值后的中位数。所以它与在滚动窗口末尾添加 .median()
不同。
最佳答案
为了有效,窗口算法必须链接两个重叠窗口的结果。
在这里,有:med0
中位数,med
x \ med0
的中位数, xl
med
之前的元素和 xg
med
之后的元素在排序元素中,funcX(x)
可以看作:
<|x-med|> + med = [sum(xg) - sum(xl) - |med0-med|] / windowsize + med
所以一个想法是维护一个表示已排序的当前窗口的缓冲区,sum(xg)
和 sum(xl)
.使用 Numba 即时编译,性能非常好。
首先是缓冲区管理:
init
对第一个窗口进行排序并计算左(xls
)和右(xgs
)总和。
import numpy as np
import numba
windowsize = 51 #odd, >1
halfsize = windowsize//2
@numba.njit
def init(firstwindow):
buffer = np.sort(firstwindow)
xls = buffer[:halfsize].sum()
xgs = buffer[-halfsize:].sum()
return buffer,xls,xgs
shift
是线性部分。它更新缓冲区,维护它 sorted 。 np.searchsorted
计算 O(log(windowsize))
中插入和删除的位置.自xin<xout
以来,它是技术性的和 xout<xin
不是对称的情况。
@numba.njit
def shift(buffer,xin,xout):
i_in = np.searchsorted(buffer,xin)
i_out = np.searchsorted(buffer,xout)
if xin <= xout :
buffer[i_in+1:i_out+1] = buffer[i_in:i_out]
buffer[i_in] = xin
else:
buffer[i_out:i_in-1] = buffer[i_out+1:i_in]
buffer[i_in-1] = xin
return i_in, i_out
update
更新缓冲区和左右部分的总和。自xin<xout
以来,它是技术性的和 xout<xin
不是对称的情况。
@numba.njit
def update(buffer,xls,xgs,xin,xout):
xl,x0,xg = buffer[halfsize-1:halfsize+2]
i_in,i_out = shift(buffer,xin,xout)
if i_out < halfsize:
xls -= xout
if i_in <= halfsize:
xls += xin
else:
xls += x0
elif i_in < halfsize:
xls += xin - xl
if i_out > halfsize:
xgs -= xout
if i_in > halfsize:
xgs += xin
else:
xgs += x0
elif i_in > halfsize+1:
xgs += xin - xg
return buffer, xls, xgs
func
相当于原来的funcX
在缓冲区上。 O(1)
.
@numba.njit
def func(buffer,xls,xgs):
med0 = buffer[halfsize]
med = (buffer[halfsize-1] + buffer[halfsize+1])/2
if med0 > med:
return (xgs-xls+med0-med) / windowsize + med
else:
return (xgs-xls+med-med0) / windowsize + med
med
是全局函数。 O(data.size * windowsize)
.
@numba.njit
def med(data):
res = np.full_like(data, np.nan)
state = init(data[:windowsize])
res[halfsize] = func(*state)
for i in range(windowsize, data.size):
xin,xout = data[i], data[i - windowsize]
state = update(*state, xin, xout)
res[i-halfsize] = func(*state)
return res
性能:
import pandas
data=pandas.DataFrame(np.random.rand(10**5))
%time res1=data[0].rolling(window = windowsize, center = True).apply(funcX, raw = True)
Wall time: 10.8 s
res2=med(data[0].values)
np.allclose((res1-res2)[halfsize:-halfsize],0)
Out[112]: True
%timeit res2=med(data[0].values)
40.4 ms ± 462 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
它快了约 250 倍,窗口大小 = 51。一个小时变成了 15 秒。
关于python - Pandas : increase speed of rolling window (apply a custom function),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55797594/
我创建了一个简单的掷骰子程序。但是while循环不会在什么时候停止roll1 和 roll2 相等。总数并没有加起来。程序运行无限次,我必须停止它。请帮忙。 输出: Roll #1: 1 Roll #
来自 the exactly-once KIP ,关于使用 InitPidRequest 重启应用程序时的生产者幂等性: 2.1 When an TransactionalId is specifie
我正在尝试使用 native CameraRoll.getPhotos API 获取相机胶卷照片。我发现文档不是很好的问题。在 react-native official documentation提
我有两个数据框:一个有多级列,另一个只有单级列(这是第一个数据框的第一级,或者说第二个数据框是通过对第一个数据框进行分组计算的)。 这两个数据框如下所示: first dataframe-df1 se
您好,请帮我使用子字符串方法,我不知道如何仅将特定单词大写 private static void viewAllItems(ArrayList itemList) { // TODO
我正在制作一个硬币从左边滚进来的动画。 到目前为止,我可以通过 RotateAnimation 使其旋转并通过 TranslateAnimation 使其移动。 现在我无法尝试让这两个同时运行。 {
我的 mysql 查询的最后一行有问题。我只想要最后一列(总计),其余行我希望它们为 NULL。 查询: SELECT q.id_socio, q.nome, q.nif, q.num_mecanog
我试图让我的代码中的按钮滚动到中心视频的顶部,但我不太确定我该怎么做?我试图将按钮作为一个类,例如class="button"然后我试着让它居中,但它不起作用。我没有在 css 中做任何与按钮相关的事
Google I/O 为 % 的人发布了一个分阶段推出的选项,我试图将一个 api 上传到市场,但找不到这个分阶段推出的选项,有人可以帮助我如何实现这一目标。 问候 sleep 最佳答案 转到“上传新
我需要一个滚动哈希来搜索文件中的模式。 (我正在尝试使用 Rabin-Karp string search algorithm )。 我了解一个好的 Hash 如何工作以及一个好的 Rolling H
环境:TFS 2010 我在 TFS 2010 上遇到了一个奇怪的问题。 我创建了一个滚动构建,并将其设置为每 30 分钟触发一次。 通常,它工作正常。我发现构建一天被触发了好几次。 然后放长假,回来
在 TFS 2010 上,我们设置了一个构建脚本,以自动运行并部署到我们的测试环境中,频率不超过每 4 小时一次。因此,构建定义的触发器是“滚动构建 - 累积 checkin ,直到先前的构建完成”,
我有一个审计表,我们在其中记录对数据库中字段的更改。我有一个查询,我能够从审计中获取有关几列、它们记录的更改以及与适用 ID 关联的时间的数据子集。以下是输出示例: ID ada
我按周数对数据框进行分组,并得到一列看起来像这样的数字 0 0.0 1 0.0 2 0.0 3 0.0 4 0.0 5 0.0 6 0.0 7 0.0 8 0.0 9 0.0 10 0.0 11 0.
我有一个如下所示的数据集 (x): DATE WEEKDAY A B C D 2011-02-04 Fri
在后记中,roll运算符非常笼统,难以形象化。你如何确保你在正确的方向上滚动? 我想在 roll 上得到一个可靠的句柄因为我希望能够使用变量来转换函数 /f { % x y z /z exch
data.table很棒,因为我可以进行滚动连接,甚至可以在组内进行滚动连接! library(data.table) set.seed(42) metrics metrics[calendar,r
我有一个重复调用 roll 的 for 循环,我想反转创建数组的顺序。 我想我忽略了一些琐碎的方法来做到这一点,但到目前为止我只找到了 10000 3 5 种不这样做的方法。 In [1]: from
[编辑] 我在numbtongue之后重建了我的代码暗示。现在看起来完全不同了,而且运行得很好。只不过它只能工作一次!滚了一圈之后就不再滚了...我有两种功能:一种用于过渡,另一种用于替换内容。在“t
实际上,我正在编写一个小型太空射击游戏(2.5D,俯 View )。玩家可以沿着 XZ 轴移动并通过右侧的迷你摇杆(游戏 handle )旋转宇宙飞船或查看光标位置(键盘 + 鼠标)。 因此,运动和旋
我是一名优秀的程序员,十分优秀!