dask - 异步 Xarray 写入 Zarr-6ren

dask - 异步 Xarray 写入 Zarr

转载作者：行者123 更新时间：2023-12-05 02:09:59

30

4

全部。我正在使用 Dask 分布式集群在循环内编写 Zarr+Dask 支持的 Xarray 数据集，并且 dataset.to_zarr 正在阻塞。当有散乱的 block 阻止循环的继续时，这确实会减慢速度。有没有办法异步执行 .to_zarr，这样循环就可以继续下一个数据集写入，而不会被一些掉队的 block 阻止？

最佳答案

使用分布式调度程序，您无需任何特殊努力即可获得异步行为。例如，如果您正在执行 arr.to_zarr，那么您确实要等待完成。但是，您可以执行以下操作:

client = Client(...)
out = arr.to_zarr(..., compute=False)
fut = client.compute(out)

这将返回一个 future ，fut，它的状态反射(reflect)了整个计算的当前状态，您可以选择是等待它还是继续提交新的工作。您还可以将其显示到进度条(在笔记本中)，只要内核不忙，进度条就会异步更新。

关于dask - 异步 Xarray 写入 Zarr，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59272474/

30

4

0

文章推荐： slider - 如何在 SwiftUI 中更改 Slider 的位置？

文章推荐： angular - 在目录上运行 ng lint 时遇到问题

文章推荐： git log 显示两个分支之间的不同提交，包括共同祖先

python-xarray - 远程 zarr 存储上的 open_mfdataset() 给出 zarr.errors.GroupNotFoundError
我想使用 xarray.open_mfdataset() 读取远程 zarr 商店我收到了 zarr.errors.GroupNotFoundError: group not found at pa
dask - 异步 Xarray 写入 Zarr
全部。我正在使用 Dask 分布式集群在循环内编写 Zarr+Dask 支持的 Xarray 数据集，并且 dataset.to_zarr 正在阻塞。当有散乱的 block 阻止循环的继续时，这确实会
python - 获取 zarr 数组切片的 View
我想生成一个指向磁盘上 zarr 数组的 part 的 zarr 数组，类似于 sliced = np_arr[5] 让我了解 np_arr，这样修改 sliced 中的数据就会修改 np_arr 中
python - 访问 Zarr 中的一个 block
Zarr将数组以 block 的形式保存在磁盘上，每个 block 都是一个单独的文件。有没有一种方法可以只访问一个选定的 block (文件)？能否在不将整个数组加载到内存的情况下确定哪些 blo
python - Dask 数组到 zarr 形状未知
我正在尝试将 dask 数组存储在 zarr 文件中。当 dask 数组具有定义的形状时，我已经成功地做到了这一点。 import dask import dask.array as da impo
arrays - 如何将 numpy 数组转换为 Zarr 数组
假设我将一个简单的列数据框转换为一个 numpy 数组: gdf.head() >>> rid rast 0 1 01000001000761C3ECF420013F0
python - 在带有 pytorch 数据加载器的开始和结束的 zarr 数组上创建生成器
我正在做一个 pytorch 项目，我的数据保存在 zarr 中。 zarr 上的随机访问成本很高，但由于 zarr 使用 block 缓存，迭代非常快。为了利用这一事实，我将 IterableDat
python - 如何最好地将 NetCDF 文件集合重新分块到 Zarr 数据集
我正在尝试重新整理 NetCDF 文件集合并在 AWS S3 上创建 Zarr 数据集。我有 168 个原始 NetCDF4 经典文件，其维度为 time: 1, y: 3840, x: 4608分块
python-xarray - 打开具有许多组的远程 zarr 商店并使用 xarray 保持坐标
我想读入 https://hrrrzarr.s3.amazonaws.com/index.html#sfc/20210208/20210208_00z_anl.zarr/ 的远程 zarr 存储。 z
python - 如何使用 dask 和 xarray 加载和处理 zarr 文件
我在 s3 中有每月 zarr 文件，其中包含网格温度数据。我想为一个纬度/经度提取多个月的数据并创建该时间序列的数据框。一些伪代码: datasets=[] for file in files:
python - 为什么在使用 dask 时 zarr 的性能比 Parquet 好得多？
当我使用 dask 对 zarr 数据和 parquet 数据运行基本相同的计算时，基于 zarr 的计算明显更快。为什么？可能是因为我在创建 Parquet 文件时做错了什么？我在 jupyter
scipy - 值错误 : unrecognized engine zarr must be one of: ['scipy' , 'store' ]
我正在尝试打开 zarr 文件， import pandas as pd import xarray as xr xf = xr.open_zarr("../../data/processed/geo
python - 如何利用 GPU 将大型 dask 数组 (numpy.ndarray) 写入 Zarr 文件？
我正在尝试使用 dask 将大型 dask 数组(46 GB，包含 124 - 370 MB block )写入 zarr 文件。如果我的 dask 数组被命名为 dask_data，那么一个简单的

首页

博学

6Ren·AI

商城

dask - 异步 Xarray 写入 Zarr