- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
所以我有 3 个 netcdf4 文件(每个大约 90 MB),我想使用包 xarray 将它们连接起来。每个文件都有一个变量 (dis),以 0.5 度分辨率(纬度、经度)表示 365 天(时间)。我的目标是连接这三个文件,使我们拥有 1095 天(3 年)的时间序列。
每个文件(2007 年、2008 年、2009 年)都有:1 个变量:dis3 个坐标:时间、纬度、经度……就这样
<xarray.Dataset>
Dimensions: (lat: 360, lon: 720, time: 365)
Coordinates:
* lon (lon) float32 -179.75 -179.25 -178.75 -178.25 -177.75 -177.25 ...
* lat (lat) float32 89.75 89.25 88.75 88.25 87.75 87.25 86.75 86.25 ...
* time (time) datetime64[ns] 2007-01-01 2007-01-02 2007-01-03 ...
Data variables:
dis (time, lat, lon) float64 nan nan nan nan nan nan nan nan nan ...
我将它们导入并使用 concat 模块进行连接,我认为成功了。在这种情况下,模块从 filestrF 中读出 3 个 netcdf 文件名
flist1 = [1,2,3]
ds_new = xr.concat([xr.open_dataset(filestrF[0,1,1,f]) for f in flist1],dim='time')
新数据集的新细节现在显示为:
Dimensions: (lat: 360, lon: 720, time: 1095)
我觉得还好。然而,当我将这个数据集写回 netcdf 时,文件大小现在已经爆炸式增长,1 年的数据似乎相当于 700 MB。
ds_new.to_netcdf('saved_on_disk1.nc')
我预计 3 x 90 MB = 270 MB - 因为我们在一维(时间)上缩放 (3x)。变量、dis 和其他维度 lat 和 lon 的大小保持不变。
对于巨大的高档尺寸有什么想法吗?我已经测试了在没有串联的情况下读入和写回文件,并且在没有增加大小的情况下成功地完成了这个。
最佳答案
您开始使用的 netCDF 文件是压缩的,可能使用 netCDF4 的 block 压缩功能。
当您读取单个数据集并将其写回磁盘时,xarray 会使用相同的压缩设置将该数据写回。但是当您合并多个文件时,压缩设置会被重置。部分原因是不同的文件可能以不同的方式在磁盘上压缩,因此应该如何处理组合结果并不明显。
要压缩保存新的 netCDF 文件,请使用 encoding
参数,as described在 xarray 文档中:
ds_new.to_netcdf('saved_on_disk1.nc', encoding={'dis': {'zlib': True}})
您可能还希望根据预期的数据访问模式手动指定 chunksizes
参数。
如果您好奇这些文件最初是如何压缩的,您可以从 encoding
属性中提取该信息,例如,xr.open_dataset(filestrF[0,1,1, 1]).dis.encoding
.
关于Python xarray.concat 然后 xarray.to_netcdf 生成巨大的新文件大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37324106/
我通过在共享首选项中使用 GSON 将其转换为 json 来存储我的复杂对象。但是在检索它时,无法获得预期的字符串。 代码 这里 holderListCustomizationMap 是对象的复杂映射
因此,我正在尝试对大于可用RAM的gz压缩文件执行某种面向行的操作,因此排除了将其首先读取为字符串的情况。问题是,如何在rust(缺少gunzip file.gz|./my-rust-program)
我试图更好地理解为什么具有潜在大精度的大数字处理不一致,特别是在 JavaScript 及其本地化工具(例如 ECMA-402/Intl)中。我假设这与 float 的使用有关,但我想了解限制在哪里和
我们有一个 5GB 的 csv 文件,这是我们业务的主列表。 有多个类别,每个类别包含数千条记录。我们的目标是将每个类别导出为其自己的 csv 文件。 我们如何运行查询并导出数据? 运行 OSX。有没
基于上一个问题 ( see here ),我试图通过 xmlEventParse 读取许多大型 xml 文件,同时保存节点变化数据。使用此示例 xml:https://www.nlm.nih.gov/
我正在开发一个系统,它加载一个巨大的 CSV 文件(超过 100 万行)并保存到数据库中。每行也有超过一千个字段。 CSV 文件被视为一个批处理,每一行都被视为其子对象。在添加对象的过程中,每个对象都
借助node-google模块 我编写了一个简单的 Node 模块来为我的网络应用程序启用“文本网络搜索”功能,并在我的一个 View 中显示结果。 由于在来自同一 IP 的少量查询后 Google
我有相当大的 4D 阵列 [20x20x40x15000],我使用 h5py 将其作为 HDF5 文件保存到磁盘.现在的问题是我想计算整个数组的平均值,即使用: numpy.average(HDF5_
我在遗留代码库中连接巨大的 CString 时遇到问题。 CStrings 可以包含 base64 编码的文件,因此可能很大。在某些时候,这些 CString 会像这样连接起来: result +=
我正在尝试让我的服务器提供来自另一台服务器的巨大文件。但是,为了保护我的凭据免受该远程服务器的攻击,我不能简单地将请求者重定向到文件 url;另一方面,虽然使用 StreamingHttpRespon
感谢对此的任何见解,我有 2 个问题: 1) 弄清楚为什么我的本地数据库 oplog 庞大且不断增长 2) 安全删除(或重置)我的 local.oplog 以释放 18 GB 的浪费空间 场景:我一直
我的预期任务:获取大量数据(1 GB 及更多大小)json 字符串,操作(进行一些格式化、解析 json、重组 json 数据)并写入新格式化的 json 字符串作为响应。处理这种情况的更好方法是什么
我做了一个小的 Angular 4 应用程序,但我不知道如何应用 tree shaking 和 aot 编译。我运行的命令如下: ng build --prod --aot 但我得到的结果仍然很大,供
我是一名优秀的程序员,十分优秀!