- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
目前,我正在使用 h5py 生成 hdf5 数据集。我有这样的东西
import h5py
import numpy as np
my_data=np.genfromtxt("/tmp/data.csv",delimiter=",",dtype=None,names=True)
myFile="/tmp/f.hdf"
with h5py.File(myFile,"a") as f:
dset = f.create_dataset('%s/%s'%(vendor,dataSet),data=my_data,compression="gzip",compression_opts=9)
这适用于相对较大的 ASCII 文件 (400MB)。我想对更大的数据集 (40GB) 做同样的事情。使用 h5py 是否有更好或更有效的方法?我想避免将整个数据集加载到内存中。
关于数据的一些信息:
np.loadtxt()
dtype=None
最佳答案
您可以通过读取文本文件开头的一小段行来推断数据的数据类型。一旦你有了这些,你就可以创建一个 resizable HDF5 dataset并迭代地将文本文件中的行 block 写入其中。
这是一个生成器,它从文本文件中生成连续的行 block 作为 numpy 数组:
import numpy as np
import warnings
def iter_genfromtxt(path, chunksize=100, **kwargs):
"""Yields consecutive chunks of rows from a text file as numpy arrays.
Args:
path: Path to the text file.
chunksize: Maximum number of rows to yield at a time.
**kwargs: Additional keyword arguments are passed to `np.genfromtxt`,
with the exception of `skip_footer` which is unsupported.
Yields:
A sequence of `np.ndarray`s with a maximum row dimension of `chunksize`.
"""
names = kwargs.pop('names', None)
max_rows = kwargs.pop('max_rows', None)
skip_header = kwargs.pop('skip_header', kwargs.pop('skiprows', 0))
if kwargs.pop('skip_footer', None) is not None:
warnings.warn('`skip_footer` will be ignored')
with open(path, 'rb') as f:
# The first chunk is handled separately, since we may wish to skip rows,
# read column headers etc.
chunk = np.genfromtxt(f, max_rows=chunksize, skip_header=skip_header,
names=names, **kwargs)
# Ensure that subsequent chunks have consistent dtypes and field names
kwargs.update({'dtype':chunk.dtype})
while len(chunk):
yield chunk[:max_rows]
if max_rows is not None:
max_rows -= len(chunk)
if max_rows <= 0:
raise StopIteration
chunk = np.genfromtxt(f, max_rows=chunksize, **kwargs)
现在假设我们有一个 .csv
文件包含:
strings,ints,floats
a,1,0.1256290043
b,2,0.0071402451
c,3,0.2551627907
d,4,0.7958570533
e,5,0.8968247722
f,6,0.7291124437
g,7,0.4196829806
h,8,0.398944394
i,9,0.8718244087
j,10,0.67605461
k,11,0.7105670336
l,12,0.6341504091
m,13,0.1324232855
n,14,0.7062503808
o,15,0.1915132527
p,16,0.4140093777
q,17,0.1458217602
r,18,0.1183596433
s,19,0.0014556247
t,20,0.1649811301
我们可以一次读取 5 行的数据 block ,并将结果数组写入可调整大小的数据集:
import h5py
# Initialize the generator
gen = iter_genfromtxt('/tmp/test.csv', chunksize=5, delimiter=',', names=True,
dtype=None)
# Read the first chunk to get the column dtypes
chunk = next(gen)
dtype = chunk.dtype
row_count = chunk.shape[0]
with h5py.File('/tmp/test.h5', 'w') as f:
# Initialize a resizable dataset to hold the output
maxshape = (None,) + chunk.shape[1:]
dset = f.create_dataset('data', shape=chunk.shape, maxshape=maxshape,
chunks=chunk.shape, dtype=chunk.dtype)
# Write the first chunk of rows
dset[:] = chunk
for chunk in gen:
# Resize the dataset to accommodate the next chunk of rows
dset.resize(row_count + chunk.shape[0], axis=0)
# Write the next chunk
dset[row_count:] = chunk
# Increment the row count
row_count += chunk.shape[0]
输出:
with h5py.File('/tmp/test.h5', 'r') as f:
print(repr(f['data'][:]))
# array([(b'a', 1, 0.1256290043), (b'b', 2, 0.0071402451),
# (b'c', 3, 0.2551627907), (b'd', 4, 0.7958570533),
# (b'e', 5, 0.8968247722), (b'f', 6, 0.7291124437),
# (b'g', 7, 0.4196829806), (b'h', 8, 0.398944394),
# (b'i', 9, 0.8718244087), (b'j', 10, 0.67605461),
# (b'k', 11, 0.7105670336), (b'l', 12, 0.6341504091),
# (b'm', 13, 0.1324232855), (b'n', 14, 0.7062503808),
# (b'o', 15, 0.1915132527), (b'p', 16, 0.4140093777),
# (b'q', 17, 0.1458217602), (b'r', 18, 0.1183596433),
# (b's', 19, 0.0014556247), (b't', 20, 0.1649811301)],
# dtype=[('strings', 'S1'), ('ints', '<i8'), ('floats', '<f8')])
对于您的数据集,您可能希望使用更大的 block 大小。
关于python - 使用 h5py 编写大型 hdf5 数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34531479/
初学者 android 问题。好的,我已经成功写入文件。例如。 //获取文件名 String filename = getResources().getString(R.string.filename
我已经将相同的图像保存到/data/data/mypackage/img/中,现在我想显示这个全屏,我曾尝试使用 ACTION_VIEW 来显示 android 标准程序,但它不是从/data/dat
我正在使用Xcode 9,Swift 4。 我正在尝试使用以下代码从URL在ImageView中显示图像: func getImageFromUrl(sourceUrl: String) -> UII
我的 Ubuntu 安装 genymotion 有问题。主要是我无法调试我的数据库,因为通过 eclipse 中的 DBMS 和 shell 中的 adb 我无法查看/data/文件夹的内容。没有显示
我正在尝试用 PHP 发布一些 JSON 数据。但是出了点问题。 这是我的 html -- {% for x in sets %}
我观察到两种方法的结果不同。为什么是这样?我知道 lm 上发生了什么,但无法弄清楚 tslm 上发生了什么。 > library(forecast) > set.seed(2) > tts lm(t
我不确定为什么会这样!我有一个由 spring data elasticsearch 和 spring data jpa 使用的类,但是当我尝试运行我的应用程序时出现错误。 Error creatin
在 this vega 图表,如果我下载并转换 flare-dependencies.json使用以下 jq 到 csv命令, jq -r '(map(keys) | add | unique) as
我正在提交一个项目,我必须在其中创建一个带有表的 mysql 数据库。一切都在我这边进行,所以我只想检查如何将我所有的压缩文件发送给使用不同计算机的人。基本上,我如何为另一台计算机创建我的数据库文件,
我有一个应用程序可以将文本文件写入内部存储。我想仔细看看我的电脑。 我运行了 Toast.makeText 来显示路径,它说:/数据/数据/我的包 但是当我转到 Android Studio 的 An
我喜欢使用 Genymotion 模拟器以如此出色的速度加载 Android。它有非常好的速度,但仍然有一些不稳定的性能。 如何从 Eclipse 中的文件资源管理器访问 Genymotion 模拟器
我需要更改 Silverlight 中文本框的格式。数据通过 MVVM 绑定(bind)。 例如,有一个 int 属性,我将 1 添加到 setter 中的值并调用 OnPropertyChanged
我想向 Youtube Data API 提出请求,但我不需要访问任何用户信息。我只想浏览公共(public)视频并根据搜索词显示视频。 我可以在未经授权的情况下这样做吗? 最佳答案 YouTube
我已经设置了一个 Twilio 应用程序,我想向人们发送更新,但我不想回复单个文本。我只是想让他们在有问题时打电话。我一切正常,但我想在发送文本时显示传入文本,以确保我不会错过任何问题。我正在使用 p
我有一个带有表单的网站(目前它是纯 HTML,但我们正在切换到 JQuery)。流程是这样的: 接受用户的输入 --- 5 个整数 通过 REST 调用网络服务 在服务器端运行一些计算...并生成一个
假设我们有一个名为 configuration.js 的文件,当我们查看内部时,我们会看到: 'use strict'; var profile = { "project": "%Projec
这部分是对 Previous Question 的扩展我的: 我现在可以从我的 CI Controller 成功返回 JSON 数据,它返回: {"results":[{"id":"1","Sourc
有什么有效的方法可以删除 ios 中 CBL 的所有文档存储?我对此有疑问,或者,如果有人知道如何从本质上使该应用程序像刚刚安装一样,那也会非常有帮助。我们正在努力确保我们的注销实际上将应用程序设置为
我有一个 Rails 应用程序,它与其他 Rails 应用程序通信以进行数据插入。我使用 jQuery $.post 方法进行数据插入。对于插入,我的其他 Rails 应用程序显示 200 OK。但在
我正在为服务于发布请求的 API 调用运行单元测试。我正在传递请求正文,并且必须将响应作为帐户数据返回。但我只收到断言错误 注意:数据是从 Azure 中获取的 spec.js const accou
我是一名优秀的程序员,十分优秀!