gpt4 book ai didi

python - 有没有一种有效的方法,可以在每个样本之间使用 NaN 对 dask 或 xarray 进行上采样?

转载 作者:行者123 更新时间:2023-12-01 07:16:22 47 4
gpt4 key购买 nike

长话短说:

我初始化了两个惰性 dask 数组,并希望将其包装到 xarray DataArray 中。 dask 数组具有不同的长度,因此我想使用 NaN 对较小的数组进行上采样,目标是共享相同的 xarray 坐标。

我怎样才能做到计算成本低(无需循环每个样本)并保持 dasks 惰性?

长话短说:

从物理上来说,两个 dask 数组的值共享相同的时间维度(0 到 5 秒),但采样频率完全不同(2MHz 与 3kHz)。因此长度(=沿时间维度的形状)非常不同。

现在我希望通过让两个 dask 数组真正共享 xarray 的相同时间坐标来启用 xarray 的强大功能。

我能想到的唯一方法是在每个样本之间使用 NaN 对较小的 dask 数组进行重新采样/上采样。

我怎样才能实现这个目标?我不确定 xarrays 重采样 [1] 或 dask 级别的重采样是否可以帮助我。

[1] http://xarray.pydata.org/en/stable/generated/xarray.Dataset.resample.html

为了简单起见,让我们留在一维并在内存 numpy 数组中使用非常短的数组 - 实际上,源来自多个巨大的 hdf5 文件:

import dask, xarray, numpy as np

long_source = np.ones(11)
short_source = np.ones(3)
time = np.linspace(0, 5, len(long_source))

da_long = dask.array.from_array(long_source)
da_short = dask.array.from_array(long_source)

# In best case, I find a way now to resample/fill da_short with NaNs
# between every sample to be able to stack both arrays!
# So an easy shortcut would be:

da_filler = dask.array.from_array(np.full(2, np.nan))
li_conc = [da_filler, da_short[0], da_filler, da_short[1], da_filler, da_short[2], da_filler, da_short[0]]

da_short = dask.array.concatenate(li_conc)

这里 - 当然 - 出现了“ValueError:所有输入数组必须具有相同的维数”,因为 li_conc 是一个标量并且没有该单个项目的形状:

[dask.array<array, shape=(2,), dtype=float64, chunksize=(2,)>,
dask.array<getitem, shape=(), dtype=float64, chunksize=()>,
dask.array<array, shape=(2,), dtype=float64, chunksize=(2,)>,
dask.array<getitem, shape=(), dtype=float64, chunksize=()>,
dask.array<array, shape=(2,), dtype=float64, chunksize=(2,)>,
dask.array<getitem, shape=(), dtype=float64, chunksize=()>,
dask.array<array, shape=(2,), dtype=float64, chunksize=(2,)>,
dask.array<getitem, shape=(), dtype=float64, chunksize=()>]
# The rest of the pseudo code would be:
final_dask_array = dask.array.stack([da_long, da_short])

xr_data = xarray.DataArray(final_dask_array , coords=[time], dims=['time', 'dataset'])

除了对于大型数据集而言,这种手动串联肯定会变慢,上述方法仅在至少 2 个样本后串联时才有效。

因此,在final_dask_array.compute()之后,想要的输出应该如下所示:

[[ 1 ,  1 , 1,  1 ,  1 , 1,  1,   1 , 1,  1 ,  1 ],
[nan, nan, 1, nan, nan, 1, nan, nan, 1, nan, nan]]

我怎样才能实现这个目标?

我真的希望,我已经以一种可以理解的方式描述了我的问题。非常感谢您的帮助以及有关如何改进我的问题的建议,我将不胜感激。

最佳答案

可能xarray.resample就是您想要的。看一下这段代码,它创建了两个 xarray.DataArray 并对它们重新采样,以便可以比较它们:

da1 = xr.DataArray(np.random.randint(0,100,11),

coords= [pd.date_range(start='14/09/2019 00:00:00',
end= '14/09/2019 00:00:05',
periods=11)],
dims='time')

da2 = xr.DataArray(np.random.randint(0,100,3),

coords= [pd.date_range(start='14/09/2019 00:00:00',
end= '14/09/2019 00:00:05',
periods=3)],
dims='time')

da1_resampled = da1.resample(time='500ms').asfreq()
da2_resampled = da2.resample(time='500ms').asfreq()

da1 看起来像:

<xarray.DataArray (time: 11)>
array([29, 6, 75, 8, 17, 28, 90, 28, 88, 48, 81])
Coordinates:
* time (time) datetime64[ns] 2019-09-14 ... 2019-09-14T00:00:05

da2 看起来像:

<xarray.DataArray (time: 3)>
array([ 8, 53, 18])
Coordinates:
* time (time) datetime64[ns] 2019-09-14 ... 2019-09-14T00:00:05

da1_resampled 看起来像:

<xarray.DataArray (time: 11)>
array([87., 23., 88., 97., 14., 34., 80., 77., 63., 91., 94.])
Coordinates:
* time (time) datetime64[ns] 2019-09-14 ... 2019-09-14T00:00:05

da2_resampled 看起来像:

<xarray.DataArray (time: 11)>
array([ 8., nan, nan, nan, nan, 53., nan, nan, nan, nan, 18.])
Coordinates:
* time (time) datetime64[ns] 2019-09-14 ... 2019-09-14T00:00:05

da1_resampledda2_resmpled 具有相同的形状。您可以继续将它们用作 xarray 或像这样访问它们的数据:

da1_resampled.data

根据您想要进一步处理数据的方式,您还可以对数组进行插值,而不是添加 nan:

da1_resampled = da1.resample(time='500ms').interpolate('linear')

da1_resampled = da1.resample(time='500ms').interpolate('nearest')

关于python - 有没有一种有效的方法,可以在每个样本之间使用 NaN 对 dask 或 xarray 进行上采样?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57926275/

47 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com