- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
全部。我正在使用 Dask 分布式集群在循环内编写 Zarr+Dask 支持的 Xarray 数据集,并且 dataset.to_zarr
正在阻塞。当有散乱的 block 阻止循环的继续时,这确实会减慢速度。有没有办法异步执行 .to_zarr
,这样循环就可以继续下一个数据集写入,而不会被一些掉队的 block 阻止?
最佳答案
使用分布式调度程序,您无需任何特殊努力即可获得异步行为。例如,如果您正在执行 arr.to_zarr
,那么您确实要等待完成。但是,您可以执行以下操作:
client = Client(...)
out = arr.to_zarr(..., compute=False)
fut = client.compute(out)
这将返回一个 future ,fut
,它的状态反射(reflect)了整个计算的当前状态,您可以选择是等待它还是继续提交新的工作。您还可以将其显示到进度条(在笔记本中),只要内核不忙,进度条就会异步更新。
关于dask - 异步 Xarray 写入 Zarr,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59272474/
我想使用 xarray.open_mfdataset() 读取远程 zarr 商店 我收到了 zarr.errors.GroupNotFoundError: group not found at pa
全部。我正在使用 Dask 分布式集群在循环内编写 Zarr+Dask 支持的 Xarray 数据集,并且 dataset.to_zarr 正在阻塞。当有散乱的 block 阻止循环的继续时,这确实会
我想生成一个指向磁盘上 zarr 数组的 part 的 zarr 数组,类似于 sliced = np_arr[5] 让我了解 np_arr,这样修改 sliced 中的数据就会修改 np_arr 中
Zarr将数组以 block 的形式保存在磁盘上,每个 block 都是一个单独的文件。有没有一种方法可以只访问一个选定的 block (文件)? 能否在不将整个数组加载到内存的情况下确定哪些 blo
我正在尝试将 dask 数组存储在 zarr 文件中。 当 dask 数组具有定义的形状时,我已经成功地做到了这一点。 import dask import dask.array as da impo
假设我将一个简单的列数据框转换为一个 numpy 数组: gdf.head() >>> rid rast 0 1 01000001000761C3ECF420013F0
我正在做一个 pytorch 项目,我的数据保存在 zarr 中。 zarr 上的随机访问成本很高,但由于 zarr 使用 block 缓存,迭代非常快。为了利用这一事实,我将 IterableDat
我正在尝试重新整理 NetCDF 文件集合并在 AWS S3 上创建 Zarr 数据集。我有 168 个原始 NetCDF4 经典文件,其维度为 time: 1, y: 3840, x: 4608分块
我想读入 https://hrrrzarr.s3.amazonaws.com/index.html#sfc/20210208/20210208_00z_anl.zarr/ 的远程 zarr 存储。 z
我在 s3 中有每月 zarr 文件,其中包含网格温度数据。我想为一个纬度/经度提取多个月的数据并创建该时间序列的数据框。一些伪代码: datasets=[] for file in files:
当我使用 dask 对 zarr 数据和 parquet 数据运行基本相同的计算时,基于 zarr 的计算明显更快。为什么?可能是因为我在创建 Parquet 文件时做错了什么? 我在 jupyter
我正在尝试打开 zarr 文件, import pandas as pd import xarray as xr xf = xr.open_zarr("../../data/processed/geo
我正在尝试使用 dask 将大型 dask 数组(46 GB,包含 124 - 370 MB block )写入 zarr 文件。如果我的 dask 数组被命名为 dask_data,那么一个简单的
我是一名优秀的程序员,十分优秀!