- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个 pandas HDFStore,我尝试从中进行选择。我想在一个大的 np.array 中选择两个时间戳之间的数据和一个 id。以下代码可以工作,但仅在查询列表中的成员身份时才会占用过多内存。如果我使用日期时间索引和范围,内存占用量会减少 95%。
#start_ts, end_ts are timestamps
#instruments is an array of python objects
not_memory_efficient = adj_data.select("US", [Term("date",">=", start_ts),
Term("date", "<=", end_ts),
Term("id", "=", instruments)])
memory_efficient = adj_data.select("US", [Term("date",">=", start_ts),
Term("date", "<=", end_ts),)
在 HDFStore 中是否有更节省内存的方法来执行此操作?我应该将索引设置为“sec_id”吗? (我也可以使用 chunksize 选项并自己连接,但这似乎有点麻烦。)
编辑:
hdfstore 是由 pd.HDFStore 创建的,它创建一个数据帧并存储如下内容。我之前犯了一个错误
def write_data(country_data, store_file):
for country in country_data:
if len(country_data[country]) == 0:
continue
df = pd.concat(country_data[country], ignore_index=True)
country_data[country] = []
store_file.append(country, df, format="t")
根据要求,这是该表的 ptdump:https://gist.github.com/MichaelWS/7980846另外,这是 df:https://gist.github.com/MichaelWS/7981451
最佳答案
为了纪念其他用户。
在HDFStore中,如果某些列不是索引,则需要将其指定为data_columns,以便以后查询。
文档是 here
创建框架
In [23]: df = DataFrame(dict(date = pd.date_range('20130101',periods=10), id = list('abcabcabcd'), C = np.random.randn(10)))
In [28]: df
Out[28]:
C date id
0 0.605701 2013-01-01 00:00:00 a
1 0.451346 2013-01-02 00:00:00 b
2 0.479483 2013-01-03 00:00:00 c
3 -0.012589 2013-01-04 00:00:00 a
4 -0.028552 2013-01-05 00:00:00 b
5 0.737100 2013-01-06 00:00:00 c
6 -1.050292 2013-01-07 00:00:00 a
7 0.137444 2013-01-08 00:00:00 b
8 -0.327491 2013-01-09 00:00:00 c
9 -0.660220 2013-01-10 00:00:00 d
[10 rows x 3 columns]
保存到 hdf,不带 data_columns
In [24]: df.to_hdf('test.h5','df',mode='w',format='table')
0.13将报告此错误(0.12将只是默默地忽略)
In [25]: pd.read_hdf('test.h5','df',where='date>20130101 & date<20130105 & id=["b","c"]')
ValueError: The passed where expression: date>20130101 & date<20130105 & id=["b","c"]
contains an invalid variable reference
all of the variable refrences must be a reference to
an axis (e.g. 'index' or 'columns'), or a data_column
The currently defined references are: index,columns
将所有列设置为数据列(也可以是特定的列列表)
In [26]: df.to_hdf('test.h5','df',mode='w',format='table',data_columns=True)
In [27]: pd.read_hdf('test.h5','df',where='date>20130101 & date<20130105 & id=["b","c"]')
Out[27]:
C date id
1 0.451346 2013-01-02 00:00:00 b
2 0.479483 2013-01-03 00:00:00 c
[2 rows x 3 columns]
这是文件的 ptdump -av
的表节点:
/df/table (Table(10,)) ''
description := {
"index": Int64Col(shape=(), dflt=0, pos=0),
"C": Float64Col(shape=(), dflt=0.0, pos=1),
"date": Int64Col(shape=(), dflt=0, pos=2),
"id": StringCol(itemsize=1, shape=(), dflt='', pos=3)}
byteorder := 'little'
chunkshape := (2621,)
autoindex := True
colindexes := {
"date": Index(6, medium, shuffle, zlib(1)).is_csi=False,
"index": Index(6, medium, shuffle, zlib(1)).is_csi=False,
"C": Index(6, medium, shuffle, zlib(1)).is_csi=False,
"id": Index(6, medium, shuffle, zlib(1)).is_csi=False}
/df/table._v_attrs (AttributeSet), 19 attributes:
[CLASS := 'TABLE',
C_dtype := 'float64',
C_kind := ['C'],
FIELD_0_FILL := 0,
FIELD_0_NAME := 'index',
FIELD_1_FILL := 0.0,
FIELD_1_NAME := 'C',
FIELD_2_FILL := 0,
FIELD_2_NAME := 'date',
FIELD_3_FILL := '',
FIELD_3_NAME := 'id',
NROWS := 10,
TITLE := '',
VERSION := '2.7',
date_dtype := 'datetime64',
date_kind := ['date'],
id_dtype := 'string8',
id_kind := ['id'],
index_kind := 'integer']
要注意的关键是 data_columns 在“描述”中是分开的,并且它们被设置为索引。
关于pandas - HDFStore 术语内存有效方法来检查列表中的成员资格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20598973/
我正在使用 drupal 6.20 以及一些模块,包括面板、 View 和其他一些模块.. 问题是,每当我尝试启用面板提供的分类法覆盖页面时,我都会收到此错误,我修改了它等等,我似乎找不到一种方法来启
我正在寻找在类(非静态)中声明的实例变量的替代 OO/Java 术语,或者更具体地说,在用 JPA 注释“装饰”的 Java 类中声明的实例变量: @Entity @Table(name = "Dep
字母“t”在 LISP 中是什么意思? 例如: (defun last2 (lst) (cond ((null lst) nil) ((null (cdr lst)) (car l
我是 Java 的新手,想了解更多。我有一个当前问题想要得到解答,但我也想知道该技术指的是什么,以便我可以做一些进一步的阅读。 我目前有这样的东西: public class BasicActivit
是否有针对 HTML 标签的术语来区分哪些应该有结束标签,哪些不应该? 例如,和 应该有伴随 和 标签。 另一方面,和 不应该。 第一组叫什么,第二组叫什么? 最佳答案 我相信 是一个“空元素”,而不
基本上,问题已经总结在标题中。如果我们在不同的命名空间中有两个具有相同签名(即相同的名称、参数类型和顺序、泛型类型参数编号)的方法/函数,这算不算重载? 这是一个 C# 问题,但我很想为不同的 OOP
在 OO 范式中,我们选择使用类,因为它们可以帮助我们分解系统,并提供很好的附带好处,例如封装、职责分离、继承、模块化等。 如果我们在组件级别查看软件系统,我们是否可以简单地以相同的概念方式对待组件,
创建拉取请求和打开拉取请求之间有区别吗? 创建拉取请求的一些短语示例: 创建一个拉取请求以提议和协作对存储库的更改。 您可以在创建拉取请求时指定要将更改合并到哪个分支。 要创建草稿拉取请求,请使用下拉
我发现this script可以循环遍历.csv文件并将它们组合成一个Excel工作表。然后,我创建了第二个脚本,以如下方式调用该脚本: echo "Combining .csv files into
我忘记了 javascript 中用来描述特定现象的术语。它与内联函数中访问变量的方式有关。我也不太明白这个理论。我依稀记得下面的代码 for(var c = 0; c< 10; c++) { a
如何清除Java中的标准输入(术语)? 一点历史:我正在编写一个“反射”程序,算法非常简单: wait a random amount of time print "press enter" read
给定以下代码,是否存在一个静态方法的名称/术语,它为每个现有实例调用同名的实例方法? 这是任何编程语言的常见做法吗? 用例是能够进行一个函数调用并确保所有实例都受到影响,而无需为该方法复制代码。 注意
这个问题在这里已经有了答案: Accessing nested JavaScript objects and arrays by string path (44 个答案) 关闭 6 年前。 我需要澄
我的目标是从给定的输入文件中读取每行的第一个元素/术语,然后根据第一个元素是什么来决定要做什么(使用 if-else 构造)。 IE。如果第一个元素/单词恰好是“the”(如下面的代码中所述),那么我
在 Java 中,对象 可以有一个运行时类型(这是它创建时的类型)和一个转换类型(您将其转换为的类型)。 我想知道这些类型的正确名称是什么。例如 class A { } class B extends
根据 Python 2.7.12 文档,User-defined methods : User-defined method objects may be created when getting a
据我所知,nbsp(不间断空格)是这样的:。但制表符 (\t) 也是不间断空格,对吗?我的意思是它不会创建新行。 如果上述所有内容都是正确的,那么如何调用可以包含 或 \t 的变量?像 tabOrNb
我使用 GAS 已经有一段时间了,但没有很强的 Javascript 背景,并且在忽略大小写的情况下按字母顺序对工作表进行排序时遇到了问题。我做了一些搜索,并根据 SO 中的其他公开答案和其他一些来源
我是初学者,我在编程中发现了术语指针的几种定义。我想知道哪一个是正确的(也许两个都是)? a - 指针是保存内存地址的变量。鉴于此定义,在以下代码 char *msg; 中,我们可以说变量 msg 是
给定以下分支 A---B---C topic (HEAD) / D---E---F---G master 并运行命令 git rebase master 这是否意味着,我们是 将 t
我是一名优秀的程序员,十分优秀!