- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我初始化了两个惰性 dask 数组,并希望将其包装到 xarray DataArray 中。 dask 数组具有不同的长度,因此我想使用 NaN 对较小的数组进行上采样,目标是共享相同的 xarray 坐标。
我怎样才能做到计算成本低(无需循环每个样本)并保持 dasks 惰性?
从物理上来说,两个 dask 数组的值共享相同的时间维度(0 到 5 秒),但采样频率完全不同(2MHz 与 3kHz)。因此长度(=沿时间维度的形状)非常不同。
现在我希望通过让两个 dask 数组真正共享 xarray 的相同时间坐标来启用 xarray 的强大功能。
我能想到的唯一方法是在每个样本之间使用 NaN 对较小的 dask 数组进行重新采样/上采样。
我怎样才能实现这个目标?我不确定 xarrays 重采样 [1] 或 dask 级别的重采样是否可以帮助我。
[1] http://xarray.pydata.org/en/stable/generated/xarray.Dataset.resample.html
为了简单起见,让我们留在一维并在内存 numpy 数组中使用非常短的数组 - 实际上,源来自多个巨大的 hdf5 文件:
import dask, xarray, numpy as np
long_source = np.ones(11)
short_source = np.ones(3)
time = np.linspace(0, 5, len(long_source))
da_long = dask.array.from_array(long_source)
da_short = dask.array.from_array(long_source)
# In best case, I find a way now to resample/fill da_short with NaNs
# between every sample to be able to stack both arrays!
# So an easy shortcut would be:
da_filler = dask.array.from_array(np.full(2, np.nan))
li_conc = [da_filler, da_short[0], da_filler, da_short[1], da_filler, da_short[2], da_filler, da_short[0]]
da_short = dask.array.concatenate(li_conc)
这里 - 当然 - 出现了“ValueError:所有输入数组必须具有相同的维数”,因为 li_conc 是一个标量并且没有该单个项目的形状:
[dask.array<array, shape=(2,), dtype=float64, chunksize=(2,)>,
dask.array<getitem, shape=(), dtype=float64, chunksize=()>,
dask.array<array, shape=(2,), dtype=float64, chunksize=(2,)>,
dask.array<getitem, shape=(), dtype=float64, chunksize=()>,
dask.array<array, shape=(2,), dtype=float64, chunksize=(2,)>,
dask.array<getitem, shape=(), dtype=float64, chunksize=()>,
dask.array<array, shape=(2,), dtype=float64, chunksize=(2,)>,
dask.array<getitem, shape=(), dtype=float64, chunksize=()>]
# The rest of the pseudo code would be:
final_dask_array = dask.array.stack([da_long, da_short])
xr_data = xarray.DataArray(final_dask_array , coords=[time], dims=['time', 'dataset'])
除了对于大型数据集而言,这种手动串联肯定会变慢,上述方法仅在至少 2 个样本后串联时才有效。
因此,在final_dask_array.compute()之后,想要的输出应该如下所示:
[[ 1 , 1 , 1, 1 , 1 , 1, 1, 1 , 1, 1 , 1 ],
[nan, nan, 1, nan, nan, 1, nan, nan, 1, nan, nan]]
我怎样才能实现这个目标?
我真的希望,我已经以一种可以理解的方式描述了我的问题。非常感谢您的帮助以及有关如何改进我的问题的建议,我将不胜感激。
最佳答案
可能xarray.resample
就是您想要的。看一下这段代码,它创建了两个 xarray.DataArray
并对它们重新采样,以便可以比较它们:
da1 = xr.DataArray(np.random.randint(0,100,11),
coords= [pd.date_range(start='14/09/2019 00:00:00',
end= '14/09/2019 00:00:05',
periods=11)],
dims='time')
da2 = xr.DataArray(np.random.randint(0,100,3),
coords= [pd.date_range(start='14/09/2019 00:00:00',
end= '14/09/2019 00:00:05',
periods=3)],
dims='time')
da1_resampled = da1.resample(time='500ms').asfreq()
da2_resampled = da2.resample(time='500ms').asfreq()
da1
看起来像:
<xarray.DataArray (time: 11)>
array([29, 6, 75, 8, 17, 28, 90, 28, 88, 48, 81])
Coordinates:
* time (time) datetime64[ns] 2019-09-14 ... 2019-09-14T00:00:05
da2
看起来像:
<xarray.DataArray (time: 3)>
array([ 8, 53, 18])
Coordinates:
* time (time) datetime64[ns] 2019-09-14 ... 2019-09-14T00:00:05
da1_resampled
看起来像:
<xarray.DataArray (time: 11)>
array([87., 23., 88., 97., 14., 34., 80., 77., 63., 91., 94.])
Coordinates:
* time (time) datetime64[ns] 2019-09-14 ... 2019-09-14T00:00:05
da2_resampled
看起来像:
<xarray.DataArray (time: 11)>
array([ 8., nan, nan, nan, nan, 53., nan, nan, nan, nan, 18.])
Coordinates:
* time (time) datetime64[ns] 2019-09-14 ... 2019-09-14T00:00:05
da1_resampled
和 da2_resmpled
具有相同的形状。您可以继续将它们用作 xarray 或像这样访问它们的数据:
da1_resampled.data
根据您想要进一步处理数据的方式,您还可以对数组进行插值,而不是添加 nan:
da1_resampled = da1.resample(time='500ms').interpolate('linear')
或
da1_resampled = da1.resample(time='500ms').interpolate('nearest')
关于python - 有没有一种有效的方法,可以在每个样本之间使用 NaN 对 dask 或 xarray 进行上采样?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57926275/
首先我想说的是,我知道isNaN()和 Number.isNaN()工作。我正在阅读 David Flanagan 的 The Definite Guide,他举例说明了如何检查值是否为 NaN :
在表中,对于 skips day 列,最后一行的默认值始终是单词“last”,它不是数字。现在,结果日期显示为“NaN/NaN/NaN”,有什么方法可以将其替换为 Nil 之类的东西。 非常感谢。
我正在制作一个网站,如果用户登录,则会为用户提供一定的注销时间,其中定义了注销时间,剩余时间是从注销时间 - 服务器时间获得的。 我已经通过 PHP 获得了注销时间和服务器时间,但我想动态显示剩余时间
我有以下代码,它简单地初始化一个 UIImageView 以适应 UIImage 在当前屏幕尺寸上尽可能大的比例: CGSize mainScreenSize = [appDelegate mainS
这个问题已经有答案了: Why in numpy `nan == nan` is False while nan in [nan] is True? (1 个回答) 已关闭 3 年前。 我只是觉得这有
我有动态 JQGrid,其中一列是日期列。我从包含 URL 和日期的 feed 中获取数据。 我需要为“日期列”开发列模型,使其显示日期和超链接。但不幸的是,数据显示为 NAN/NAN/NAN (这可
我已经包含了一个演示我的问题的片段。基本上处理给了我这个错误: 调用map(NaN, -3, 3, -125, 125),返回NaN(不是数字) 我理解此消息的方式是,map 函数返回 NaN,并且由
我在下面创建的过滤器适用于 Chrome,但不适用于 Firefox。我不明白为什么。 myApp.filter('dateCustom', [ '$filter', function ($fil
虽然问题的第一部分(在标题中)之前已经回答过几次(即 Why is NaN not equal to NaN? ),但我不明白为什么第二部分会以它的方式工作(受此启发问题 How to Check l
我需要在数组中找到min和max值(不考虑可能的NaN值在这个数组中)。 这只使用 double 会很容易,但是这些 FindMin 和 FindMax 函数必须使用泛型类型。 我尝试以这种方式测
我正在开发一个屏幕,其中 UIScrollView 内只有一个 UIImageView。 UIScrollView 使用户能够固定和缩放图像。我从下面的帖子中得到了帮助。它使用 Storyboard和
尽管看到了类似的答案,但我不知道这里发生了什么。我制作了一个自定义的 UIImageview,它应该在创建后立即开始动画: class HeaderAnimator: UIImageView {
我正在寻找一个 pandas 系列并用下一个数值的平均值填充 NaN,其中:average = next numerical value/(# consecutive NaNs + 1) 到目前为止,
我有一个 mySql 表,其中有一个名为 posts 的列,该列设置为 timestamp 类型,默认为 current_timestamp。然后,我使用 php PDO 获取它的值(以及其他一些列)
我想知道以下类型的 nan 之间有什么区别。除了 NAN_macro (计算结果为 -nan(ind) 而不是 nan )的视觉差异外,它们的行为似乎都相同(根据下面的示例脚本)。 我看了一些其他的答
我为我的网页做了倒计时;它在除 Mozilla 和 IE 之外的所有浏览器上都能正常工作。 我做错了什么,我该如何解决? 下面是我的代码: ***var dt = '2018-06-14 11:59
在将 Xcode 更新到 8.3 后,我在启动时开始收到此错误:由于未捕获的异常“CALayerInvalidGeometry”而终止应用程序,原因:“CALayer 位置包含 NaN:[nan na
我正在使用 jquery 自动完成 onselect 它在不同的文本字段中显示数据。我使用 format_date() 函数在 #dob 和 #anniversery 中显示格式化日期 select:
我有一个带有 json Store 和 DateField 的网格。 Firefox 运行良好,但在 Internet Explorer 8 中无法运行。 我这样定义: function conver
我有一个错误,它在启动时使应用程序崩溃。这是我得到的错误: *** Terminating app due to uncaught exception 'CALayerInvalidGeometry'
我是一名优秀的程序员,十分优秀!