gpt4 book ai didi

python - 如何有效地对 Pytables 中的数据进行插值

转载 作者:太空宇宙 更新时间:2023-11-04 06:09:59 24 4
gpt4 key购买 nike

我在 pytables 中有很长的数组和时间值对表。我需要能够对此数据执行线性插值和零阶保持插值。

目前,我正在使用 pytables 的按列切片表示法将列转换为 numpy 数组,然后将 numpy 数组提供给 scipy.interpolate.interp1d 以创建插值函数。

有更好的方法吗?

我问的原因是我的理解是将列转换为 numpy 数组基本上将它们复制到内存中。这意味着当我开始全速运行我的代码时,我将遇到麻烦,因为我将处理大到足以淹没我的桌面的数据集。如果我在这一点上有误,请纠正我。

此外,由于我要处理的数据量很大,我怀疑编写一个迭代 pytables 数组/表的函数以便自己进行插值会非常慢,因为我需要调用插值函数很多很多次(大约与我尝试插值的数据中的记录一样多)。

最佳答案

您的问题很难回答,因为内存和计算时间之间总是存在权衡,而您本质上是要求不必牺牲其中任何一个,这是不可能的。 scipy.interpolate.interp1d() 要求数组在内存中并且编写一个核外插值器要求您查询磁盘与调用它的次数成线性关系。

也就是说,您可以做一些事情,但没有一件是完美的。

您可以尝试的第一件事是对数据进行下采样。这将根据您减少采样的因素减少您需要存储在内存中的数据。缺点是您的插值要粗糙得多。幸运的是,这很容易做到。只需为您访问的列提供一个步长。对于 4 的下采样因子,你会这样做:

with tb.open_file('myfile.h5', 'r') as f:
x = f.root.mytable.cols.x[::4]
y = f.root.mytable.cols.y[::4]

f = scipy.interpolate.interp1d(x, y)
ynew = f(xnew)

如果您愿意,也可以根据可用内存调整步长。

或者,如果您为其插入值的数据集 - xnew - 仅存在于原始域的子集上,则您可以只读取原始表中新邻域中的部分。给定 10% 的软糖因素,您可以执行以下操作:

query = "{0} <= x & x <= {1}".format(xnew.min()*0.9, xnew.max()*1.1)

with tb.open_file('myfile.h5', 'r') as f:
data = f.root.mytable.read_where(query)

f = scipy.interpolate.interp1d(data['x'], data['y'])
ynew = f(xnew)

扩展这个想法,如果我们遇到 xnew 排序(单调递增)但确实扩展到整个原始域的情况,那么您可以以分块方式从磁盘上的表中读入。假设我们想要 10 个 block :

newlen = len(xnew)
chunks = 10
chunklen = newlen/ chunks
ynew = np.empty(newlen, dtype=float)
for i in range(chunks):
xnew_chunk = xnew[i*chunklen:(i+1)*chunklen]
query = "{0} <= x & x <= {1}".format(xnew_chunklen.min()*0.9,
xnew_chunklen.max()*1.1)

with tb.open_file('myfile.h5', 'r') as f:
data = f.root.mytable.read_where(query)

f = scipy.interpolate.interp1d(data['x'], data['y'])
ynew[i*chunklen:(i+1)*chunklen] = f(xnew_chunk)

在内存和 I/O 速度之间取得平衡始终是一项挑战。根据数据的规律性,您可能可以采取一些措施来加快这些策略的速度。不过,这应该足以让您入门。

关于python - 如何有效地对 Pytables 中的数据进行插值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19416773/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com