Python xarray 删除所有缺失变量的坐标-6ren

Python xarray 删除所有缺失变量的坐标

转载作者：行者123 更新时间：2023-12-01 08:59:41

我使用 xarray 导入不同的 netCDF 文件，最终需要将它们全部转换为一个 panda 数据帧。这是一个包含天气数据的文件，随着时间的推移，某些纬度和经度的观测值丢失了许多(因为它们位于海洋中部)。坐标:纬度、经度、时间；变量:温度、预温度。在转换为数据框之前，我想摆脱这些缺失的观察/整个坐标。有没有一种简单有效的方法来使用 xarray 来做到这一点？我在文档中没有找到任何内容。

import pandas as pd 
import xarray as xr

path = 'Z:/Research/Climate_change/Climate_extreme_index/CRU data/'
temp_data = path+'cru_ts4.01.1901.2016.tmp.dat.nc'
pre_data = path+'cru_ts4.01.1901.2016.pre.dat.nc'

# Open netcdf 
def open_netcdf(datapath):
    print("Loading data...")
    data = xr.open_dataset(datapath, autoclose=True, drop_variables='stn', cache=True)
    return data
# Merge dataframes
data_temp = open_netcdf(temp_data)
data_pre = open_netcdf(pre_data)
all_data = xr.merge([data_temp, data_pre])

#################################################################
<xarray.Dataset>
Dimensions:  (lat: 360, lon: 720, time: 1392)
Coordinates:
  * lon      (lon) float32 -179.75 -179.25 -178.75 -178.25 -177.75 -177.25 ...
  * lat      (lat) float32 -89.75 -89.25 -88.75 -88.25 -87.75 -87.25 -86.75 ...
  * time     (time) datetime64[ns] 1901-01-16 1901-02-15 1901-03-16 ...
Data variables:
    tmp      (time, lat, lon) float32 ...
    pre      (time, lat, lon) float32 ...
#########################################################
#Dataframe example
                           tmp  pre
lat    lon     time                
-89.75 -179.75 1901-01-16  NaN  NaN
               1901-02-15  NaN  NaN
               1901-03-16  NaN  NaN
               1901-04-16  NaN  NaN
               1901-05-16  NaN  NaN
               1901-06-16  NaN  NaN
               1901-07-16  NaN  NaN
               1901-08-16  NaN  NaN
               1901-09-16  NaN  NaN
               1901-10-16  NaN  NaN
               1901-11-16  NaN  NaN

最佳答案

简短的回答是，在删除 NaN 之前将数据集转换为 DataFrame 正是正确的解决方案。

具有 MultiIndex 的 pandas DataFrame 和 xarray 数据集之间的主要区别之一是，可以将某些索引元素(时间/纬度/经度组合)删除到 MultiIndex 中，而不删除所有实例带有 NaN 的时间、纬度或经度。另一方面，DataArray 将每个维度(时间、纬度和经度)建模为正交，这意味着在不删除整个数组切片的情况下无法删除 NaN。这是xarray数据模型的核心特性。

作为示例，下面是一个与您的数据结构相匹配的小型数据集:

In [1]: import pandas as pd, numpy as np, xarray as xr

In [2]: ds = xr.Dataset({
   ...:     var: xr.DataArray(
   ...:         np.random.random((4, 3, 6)),
   ...:         dims=['time', 'lat', 'lon'],
   ...:         coords=[
   ...:             pd.date_range('2010-01-01', periods=4, freq='Q'),
   ...:             np.arange(-60, 90, 60),
   ...:             np.arange(-180, 180, 60)])
   ...:     for var in ['tmp', 'pre']})
   ...:

我们可以创建一个假的陆地掩码，它将为每个时间段提供 NaN 特定的纬度/经度组合

In [3]: land_mask = (np.random.random((1, 3, 6)) > 0.3)

In [4]: ds = ds.where(land_mask)

In [5]: ds.tmp
Out[5]:
<xarray.DataArray 'tmp' (time: 4, lat: 3, lon: 6)>
array([[[0.020626, 0.937496,      nan, 0.052608, 0.266924, 0.361297],
        [0.299442, 0.524904, 0.447275, 0.277471,      nan, 0.595671],
        [0.541777, 0.279131,      nan, 0.282487,      nan,      nan]],

       [[0.473278, 0.302622,      nan, 0.664146, 0.401243, 0.949998],
        [0.225176, 0.601039, 0.543229, 0.144694,      nan, 0.196285],
        [0.059406, 0.37001 ,      nan, 0.867737,      nan,      nan]],

       [[0.571011, 0.864374,      nan, 0.123406, 0.663951, 0.684302],
        [0.867234, 0.823417, 0.351692, 0.46665 ,      nan, 0.215644],
        [0.425196, 0.777346,      nan, 0.332028,      nan,      nan]],

       [[0.916069, 0.54719 ,      nan, 0.11225 , 0.560431, 0.22632 ],
        [0.605043, 0.991989, 0.880175, 0.3623  ,      nan, 0.629986],
        [0.222462, 0.698494,      nan, 0.56983 ,      nan,      nan]]])
Coordinates:
  * time     (time) datetime64[ns] 2010-03-31 2010-06-30 2010-09-30 2010-12-31
  * lat      (lat) int64 -60 0 60
  * lon      (lon) int64 -180 -120 -60 0 60 120

您可以看到，在不丢失有效数据的情况下，不能删除任何纬度或经度索引。另一方面，当数据转换为 DataFrame 时，纬度/经度/时间维度会堆叠起来，这意味着可以删除该索引中的单个元素，而不会影响其他行:

In [6]: ds.to_dataframe()
Out[6]:
                          tmp       pre
lat lon  time
-60 -180 2010-03-31  0.020626  0.605749
         2010-06-30  0.473278  0.192560
         2010-09-30  0.571011  0.850161
         2010-12-31  0.916069  0.415747
    -120 2010-03-31  0.937496  0.465283
         2010-06-30  0.302622  0.492205
         2010-09-30  0.864374  0.461739
         2010-12-31  0.547190  0.755914
    -60  2010-03-31       NaN       NaN
         2010-06-30       NaN       NaN
         2010-09-30       NaN       NaN
         2010-12-31       NaN       NaN
     0   2010-03-31  0.052608  0.529258
         2010-06-30  0.664146  0.116303
         2010-09-30  0.123406  0.389693
...                       ...       ...
 60  120 2010-03-31       NaN       NaN
         2010-06-30       NaN       NaN
         2010-09-30       NaN       NaN
         2010-12-31       NaN       NaN

[72 rows x 2 columns]

当在此 DataFrame 上调用 dropna() 时，不会删除任何数据:

In [7]: ds.to_dataframe().dropna(how='all')
Out[7]:
                          tmp       pre
lat lon  time
-60 -180 2010-03-31  0.020626  0.605749
         2010-06-30  0.473278  0.192560
         2010-09-30  0.571011  0.850161
         2010-12-31  0.916069  0.415747
    -120 2010-03-31  0.937496  0.465283
         2010-06-30  0.302622  0.492205
         2010-09-30  0.864374  0.461739
         2010-12-31  0.547190  0.755914
     0   2010-03-31  0.052608  0.529258
         2010-06-30  0.664146  0.116303
         2010-09-30  0.123406  0.389693
         2010-12-31  0.112250  0.485259
     60  2010-03-31  0.266924  0.795056
         2010-06-30  0.401243  0.299577
         2010-09-30  0.663951  0.359567
         2010-12-31  0.560431  0.933291
...                       ...       ...
 60  0   2010-03-31  0.282487  0.148216
         2010-06-30  0.867737  0.643767
         2010-09-30  0.332028  0.471430
         2010-12-31  0.569830  0.380992

关于Python xarray 删除所有缺失变量的坐标，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52553925/

文章推荐： jsoup - 从 html 选择的选项中获取选定的选项

文章推荐： wpf - 如何覆盖 WPF 中的 TreeViewItem 以允许异步加载子项？

文章推荐： autoit - RunWait() - 添加参数

python-xarray - 从坐标增加 xarray 的维数
假设我有以下二维数组 >>> import numpy as np >>> budgets = np.array([ [np.nan, 450.], [500. , 10
python-xarray - xarray.open_mfdataset 用于一小部分变量
我正在尝试读取单个 WRF 的时间序列输出变量。时间序列是分布式的，每个文件一个时间戳，跨越 5000 多个 netCDF 文件。每个文件包含大约 200 个变量。有没有办法只为我感兴趣的变量调用
python-xarray: xarray.Dataset.keep?
我有一个相当大的 xr.Dataset，其中包含大约 20 个数据变量。我只对保留其中两个感兴趣。我看到 xr.Dataset.drop带有数据集的删除变量。我正在寻找保留变量的语法。我尝试了 f[
python-xarray - 在时间维度中对 xarray 数据集或数据数组进行子集化
我正在尝试计算 xarray 数据集中时间维度子集的每月气候。时间是使用 datetime64 定义的。如果我想使用整个时间序列，这很好用: monthly_avr=ds_clm.groupby('
python - 将 xarray 数据变量重新分配给 xarray 坐标
我有一个空间数据的 pandas 数据框，我想将其转换为 netCDF。我找到了 xarray 并将我的数据帧转换为 xarray 数据集的方法: # create xray Dataset from
python-xarray - xarray - 如何重命名 DataArray 对象上的维度
我有一个名为 rio 的 DataArray 对象。 In [59]: rio Out[59]: array([[[0, 0, ..., 0, 0], [0, 0, ..., 0,
memory - xarray.Dataset.to_array() 是否将数组加载到内存中以及如何有效地从 xarray 中采样小批量？
我目前正在尝试将一个大的多维数组 (>5 GB) 加载到 python 脚本中。由于我将数组用作机器学习模型的训练数据，因此以小批量高效加载数据非常重要，但要避免将整个数据集加载到内存中一次。我的想
python-xarray - Python Xarray `Dataset.sel()` 沿一维选择多个值
假设我有一个 dataset类型 xarray.Dataset .我有一个名为 name 的维度,(由 DataArray 中的所有 Dataset 共享，但我认为这对这个问题并不重要，)我想选择一个
python-xarray - 打开具有许多组的远程 zarr 商店并使用 xarray 保持坐标
我想读入 https://hrrrzarr.s3.amazonaws.com/index.html#sfc/20210208/20210208_00z_anl.zarr/ 的远程 zarr 存储。 z
python-xarray:如何将多个波段和日期的单个波段栅格数据转换为 xarray-Dataset 或 DataArray？
我想获取栅格(卫星图像)数据，并构建一个Dataset 或DataArray，以加快我的图像处理速度(我必须处理多-波段，多日期卫星图像很多)。数据来自每个图像日期的单独波段，我了解如何将每个波段日
Python xarray.concat 然后 xarray.to_netcdf 生成巨大的新文件大小
所以我有 3 个 netcdf4 文件(每个大约 90 MB)，我想使用包 xarray 将它们连接起来。每个文件都有一个变量 (dis)，以 0.5 度分辨率(纬度、经度)表示 365 天(时间)。
python-xarray - xarray : reverse an array along one coordinate
对于我的数据数组，我有坐标经度、纬度和时间。我只想沿纬度反转数组，以便 [90, 85, ..., -85, -90]变成 [-90, -80, ..., 85, 90] . 最佳答案同意@jham
python-xarray - 无法将 y 和 x 坐标分配给 xarray.DataArray
完成 MetPy 横截面示例后，我尝试将该示例推广到 NCEP NAM-12km GRIB2 文件，但未成功。通过将我的文件的 DataArray 与示例文件(netCDF 文件)进行比较，我发现 x
python-xarray - xarray.apply_ufunc() 与 GroupBy : unexpected number of dimensions
我正在使用 xarray.apply_ufunc() 将函数应用于 xarray.DataArray .它适用于某些 NetCDF，但在尺寸、坐标等方面似乎具有可比性的其他 NetCDF 会失败。但是
python-xarray - 以 block 的形式创建 xarray DataArray 并将其写入 NetCDF
是否也可以创建一个核外 DataArray，并使用 xarray 将其逐块写入 NetCDF4 文件？例如，当维度更大时，我希望能够以核外方式执行此操作，因此我无法将整个数组存储在内存中: num_
python-xarray - xarray/datetime64[ns] : remove or normalise time from datetime
我有一个数据数组arr，坐标为“时间”。到达: array([244.40161, 244.39998, ..., 244.40936, 244.40549], dtype=float32)
python-xarray - xarray/datetime64[ns] : remove or normalise time from datetime
我有一个数据数组arr，坐标为“时间”。到达: array([244.40161, 244.39998, ..., 244.40936, 244.40549], dtype=float32)
Easy way to convert Julian calendar to standard with Python xarray?(简单的方法来转换儒略历到标准的Python xarray？)
我是新手，我使用的是XARRAY。我的netcdf文件包含时间为‘天数自0001-01-01 00：00：00’的数据，日历类型为Julian。有谁知道将时间转换成标准日历的简单方法吗？。提前感谢：)
Easy way to convert Julian calendar to standard with Python xarray?(简单的方法来转换儒略历到标准的Python xarray？)
我是新手，我使用的是XARRAY。我的netcdf文件包含时间为‘天数自0001-01-01 00：00：00’的数据，日历类型为Julian。有谁知道将时间转换成标准日历的简单方法吗？。提前感谢：)
Easy way to convert Julian calendar to standard with Python xarray?(简单的方法来转换儒略历到标准的Python xarray？)
我是新手，我使用的是XARRAY。我的netcdf文件包含时间为‘天数自0001-01-01 00：00：00’的数据，日历类型为Julian。有谁知道将时间转换成标准日历的简单方法吗？。提前感谢：)

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Python xarray 删除所有缺失变量的坐标