python - X 阵列 : Loading several CSV files into a dataset-6ren

python - X 阵列 : Loading several CSV files into a dataset

转载作者：行者123 更新时间：2023-12-05 02:46:24

32

4

我有几个逗号分隔的数据文件，我想将它们加载到 xarray 数据集中。每个文件中的每一行代表固定网格中字段的不同空间值，每个文件代表不同的时间点。网格间距是固定的，不随时间变化。网格间距不均匀。最终目标是计算 max_{x, y} { std_t[ value(x, y, t) * sqrt(y **2 + x ** 2)] }，其中 sqrt 是平方根，std_t 是相对于时间的标准偏差，max_{x, y} 是所有空间的最大值。

我在加载数据时遇到问题。我不清楚应该如何将多个 CSV 文件加载到 xarray 数据集中。有一个 open_mfdataset 函数，它是为将多个数据文件加载到数据集中而设计的，但似乎需要 hdf5 或 netcdf 文件。

似乎无法将常规 CSV 文件加载到 xarray 数据集中，并且有必要对数据进行预处理。在我的示例中，我决定预先将 csv 文件预处理为 hdf5 文件，以利用 h5netcdf 引擎。这对我来说似乎是一个特定于 hdf5 的问题。

下面是我迄今为止加载数据的最佳尝试。不幸的是，它会产生一个空的 xarray 数据集。我在open_mfdataset 函数中尝试了几个选项，下面的代码只是多次尝试使用该函数的一种实现。

我如何将这些 csv 文件加载到单个 xarray 数据集中，以设置自己以找到感兴趣值的时间标准偏差的最大跨空间？

import xarray as xr
import numpy as np
import pandas as pd

'''
Create example files
- Each file contains a spatial-dependent value, f(x, y)
- Each file represents a different point in time, f(x, y, t)

'''
for ii in range(7):

   # create csv file
   fl = open('exampleFile%i.dat' % ii, 'w')
   fl.write('time x1 x2 value\n')
   for xx in range(10):
      for yy in range(10):
         fl.write('%i %i %i %i\n' % 
                  (ii, xx, yy, (xx - yy) * np.exp(ii)))
   fl.close()

   # convert csv to hdf5
   dat = pd.read_csv('exampleFile%i.dat' % ii)
   dat.to_hdf('exampleFile%i.hdf5' % ii, 'data', mode='w')

'''
Read all files into xarray dataframe
   (the ultimate goal is to find the 
      maximum across time of 
      the standard deviation across space
      of the "value" column)
'''
result = xr.open_mfdataset('exampleFile*.hdf5', engine='h5netcdf', combine='nested')

...当我运行代码时，result 变量似乎不包含所需的数据:

In: result
Out: 
<xarray.Dataset>
Dimensions:  ()
Data variables:
    *empty*
Attributes:
    PYTABLES_FORMAT_VERSION:  2.1
    TITLE:                    Empty(dtype=dtype('S1'))
    VERSION:                  1.0

编辑

发布的答案假设空间网格均匀分布。这是一个稍微修改过的示例，它不假设空间点的网格是均匀分布的。

该示例还假设了三个空间维度。这更符合我的实际问题，我意识到这可能是这个简单示例中的一个重要细节。

import xarray as xr
import numpy as np
import pandas as pd

'''
Create example files
- Each file contains a spatial-dependent value, f(x, y)
- Each file represents a different point in time, f(x, y, t)

'''
for ii in range(7):

   # create csv file
   fl = open('exampleFile%i.dat' % ii, 'w')
   fl.write('time x y z value\n')
   for xx in range(10):
      for yy in range(int(10 + xx // 2)):
         for zz in range(int(10 + xx //3 + yy // 3)):
            fl.write('%i %f %f %f %f\n' % 
                    (ii, xx * np.exp(- 1 * yy * zz) , yy * np.exp(xx - zz), zz * np.exp(xx * yy), (xx - yy) * np.exp(ii)))
   fl.close()

   # convert csv to hdf5
   dat = pd.read_csv('exampleFile%i.dat' % ii)
   dat.to_hdf('exampleFile%i.hdf5' % ii, 'data', mode='w')

'''
Read all files into xarray dataframe
   (the ultimate goal is to find the 
      maximum across time of 
      the standard deviation across space
      of the "value" column)
'''
result = xr.open_mfdataset('exampleFile*.hdf5', engine='h5netcdf', combine='nested')

最佳答案

我的方法是创建一个解析函数，将 CSV 转换为 xarray.Dataset。

这样您就可以使用 xarray.concat 将它们组合成最终数据集，您可以在该数据集上执行计算。

以下适用于您的示例数据:

from glob import glob

def csv2xr(csv, sep=" "):
    
    df = pd.read_csv(csv, sep)
    x = df.x1.unique()
    y = df.x2.unique()
    
    pix = df.value.values.reshape(1, x.size, y.size)
    
    ds = xr.Dataset({
        "value": xr.DataArray(
            pix,
            dims=['time', 'x', 'y'],
            coords={"time": df.time.unique(), "x": x, "y": y})
    })
    
    return ds

csvs = glob("*dat")

ds_full = xr.concat([csv2xr(x) for x in csvs], dim="time")

print(ds_full)

#<xarray.Dataset>
# Dimensions:  (time: 7, x: 10, y: 10)
# Coordinates:
#   * time     (time) int64 4 3 2 0 1 6 5
#   * x        (x) int64 0 1 2 3 4 5 6 7 8 9
#   * y        (y) int64 0 1 2 3 4 5 6 7 8 9
# Data variables:
#     value    (time, x, y) int64 0 -54 -109 -163 -218 -272 ... 593 445 296 148 0

然后获取 std 在 time 上的最大值:

ds_full.std("time").max()

关于python - X 阵列 : Loading several CSV files into a dataset，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65490931/

32

4

0

文章推荐： vue.js - 在 Vuex 商店中使用 i18n-nuxt $t

文章推荐： php - Laravel Sanctuary 登录

文章推荐： regex - 如何在 Elixir 中使用 W3C 电子邮件正则表达式

java - MagicEightBall 阵列
我有一个关于将字符串分配给数组编号的问题。我已经声明了字符串数组，例如。 String[] answer = {"yes", "no", "maybe"}; 如何在不使用这种方法的情况下将每个字符串
Android Firebase 阵列
我正在为云数据库使用 Firebase 编写一个 Android 应用程序。它基本上是一个多项选择调查问题应用程序。导入到我的 Firebase { "multiple_choice" : {
从输入文件创建 3D 阵列？
我想将输入文件中的以下行存储到 3D 数组中(不包括第一行。)第一行表示后续行的数量。 3 4 9368 86 843 23224 4 7323 2 2665 2665 8447 47 843 527
c++ - 选择性能最高的容器(阵列)
这是我关于容器的小大问题，尤其是数组。我正在编写一个物理代码，主要操纵一大组(> 1 000 000)“粒子”(每个粒子有 6 个 double 坐标)。我正在寻找最佳方式(在性能方面)来实现一个类
angular - RouterLink 阵列
我有一个超链接，我需要在 Angular 4 中创建一个路由器链接。我有很多部分指向 url，其中一部分是一个数组。我不确定如何让数组将自己拆分成 routerlink 数组的部分。以这个人为的例子
用于轮式选择器的 Android 阵列
大家好，我有一个轮子选择器在工作，但目前它正在为所有轮子提取 0-9 的数字。我希望能够设置值而不是 0-9 我希望它是从数组或字符串中提取的单词，所以我可以输入它们 myslef 因为我不确定目前从
javascript - 进入 Spotify 阵列
我正在尝试使用 Spotify API 并进入数组。 const App = () => { const [isLoading, setIsLoading] = useState(true);
java - 井字棋 - 2D 阵列
我尝试创建 Tic Tac Toe，我能够填满我的棋盘，并且能够检查行和列以确定谁获胜。然而，我需要一些帮助来检查对角线，看看谁赢了。这是我到目前为止所拥有的。我是初学者，所以请不要让代码太难。检查
vhdl - 初始化动态 VHDL 阵列
--in the package type t_array is array (natural range <>) of std_logic_vector (7 downto 0); type p_a
arrays - 无法访问私有(private)阵列
我在访问字符串数组时遇到困难。它被声明为私有(private)数组并填充在类的构造函数中。我定义了一个 Get 函数。问题是当我在编译时调用此函数时出现错误，提示我无法访问在类中声明的私有(priva
perl - 访问 Moose 阵列
无法弄清楚推送到 Moose 数组的语法(我确信这很明显，而且我很愚蠢)。这是 this question 的延续.在我看来，对于我的具体情况，我需要的不仅仅是一个简单的值。尝试使用 Moose 式的
python - 刺穿 3D 阵列
我有一个 3d 数组，我正在尝试从中获取刺伤列表。换句话说，给定数组: t = np.array([[[1,2],[3,4]],[[5,6],[7,8]],[[9,10],[11,12]]]) arr
python - 直接体积图 3D 阵列
我正在寻找绘制一个 3 维数组。有没有一种方法可以直接输入数组，绘制体素并在 3d 数组中的位置产生的坐标处绘制实际值(颜色)？到目前为止我发现的所有方法(例如 ax.voxels、mlab.poin
javascript - 阵列中的 knockout 阵列
我正在尝试使用 Knockout 创建一个简单的电子表格。我试图让每个单元格都可观察，以便在发生变化时，我可以评估值并进行相应的计算。因此，如果他们在单元格中输入 6+7，我可以评估并将该值更改为总数
arrays - swift 阵列。尝试根据当前时间查找数组中的下一个时间
我有当前时间和这组时间。我想计算出下一次与当前时间最接近的时间。 let date = NSDate() let calendar = NSCalendar.currentCalendar() let
java - 如何创建随机分布在阵列上的图像的 2D 阵列？
我想在我的小程序中创建一个二维图像数组。我需要一个 4x4 网格，其中有 4 个图像，每个图像 4 个随机分布在阵列中。这里有一些答案，但我不明白如何使用它们。最佳答案您可以声明 Image[][
php - 具有独特提交按钮的 echo 阵列
基本上，此代码列出了“可用”挑战，其中 complete = 0 并在每个列表中都有一个接受submit 按钮。到目前为止，我一次只能列出一项，因为列出的多个按钮无法识别匹配 ID $echo 任何人
javascript - 阵列 Angular 动态滤波器
我正在尝试创建一个带有动态变量的过滤数组。我创建一个包含过滤器键的数组，然后创建一个过滤后的数组，该数组只应返回与第一个数组中的键匹配的项目。带有过滤器键的数组:$scope.participant
javascript - DNA 配对、阵列
我是一个相对年轻的开发人员，我对一些事情感到困惑。这是我的代码: function pairElement(str) { var arr = []; var pairs = [
javascript - 连接 firebase 阵列？
我正在 Angular 中创建一个函数，我想抓取所有博客文章，其类别与单击的按钮相匹配，我的 Firebase 中有 3 个不同的字段，标题为类别 1、类别 2 和类别 3。例如，当用户单击新闻通讯时

首页

博学

6Ren·AI

商城

python - X 阵列 : Loading several CSV files into a dataset