gpt4 book ai didi

python - 如何使用 Patsy 的 API 准备大型数据集?

转载 作者:太空宇宙 更新时间:2023-11-04 05:58:23 26 4
gpt4 key购买 nike

我正在运行逻辑回归,但在使用 Patsy 的 API 准备数据时遇到了问题,因为它大于一个小样本。

直接在 DataFrame 上使用 dmatrices 函数,我遇到了这个突然的错误(请注意,在我的笔记本电脑上遇到这个问题后,我启动了一个 300GB RAM 的 EC2,并得到了相同的结果错误):

Traceback (most recent call last):
File "My_File.py", line 22, in <module>
df, return_type="dataframe")
File "/root/anaconda/lib/python2.7/site-packages/patsy/highlevel.py", line 297, in dmatrices
NA_action, return_type)
File "/root/anaconda/lib/python2.7/site-packages/patsy/highlevel.py", line 156, in do_highlevel_design
return_type=return_type)
File "/root/anaconda/lib/python2.7/site-packages/patsy/build.py", line 989, in build_design_matrices
results.append(builder._build(evaluator_to_values, dtype))
File "/root/anaconda/lib/python2.7/site-packages/patsy/build.py", line 821, in _build
m = DesignMatrix(np.empty((num_rows, self.total_columns), dtype=dtype),
MemoryError

所以,我梳理了Patsy's docs并找到了这个 gem :

patsy.incr_dbuilder(formula_like, data_iter_maker, eval_env=0)
Construct a design matrix builder incrementally from a large data set.

但是,该方法的文档很少,并且源代码大部分未注释。

我得到了这段代码:

def iter_maker():
with open("test.tsv", "r") as f:
reader = csv.DictReader(f, delimiter="\t")
for row in reader:
yield(row)


y, dta = incr_dbuilders("s ~ C(x) + C(y):C(rgh) + \
C(z):C(f) + C(r):C(p) + C(q):C(w) + \
C(zr):C(rt) + C(ff):C(djjj) + C(hh):C(tt) + \
C(bb):lat + C(jj):lng + C(ee):C(bb) + C(qq):C(uu)",
iter_maker)

df = dmatrix(dta, {}, 0, "drop", return_type="dataframe")

但我收到 PatsyError: Error evaluating factor: NameError: name 'ff' is not defined

这是被抛出的,因为 _try_incr_builders(从 dmatrix 调用)返回无 on line 151 of highlevel.py

使用这些 Patsy 函数准备数据的正确方法是什么?您可能拥有的任何示例或指南都会有所帮助。

最佳答案

ydtaDesignInfo 对象——它们对获取一行数据帧并将其转换为设计矩阵的一行。不过,它们没有包含您的实际数据——要获得您的设计矩阵的一部分,您必须向他们提供您的一部分数据。要使用它们,您需要做类似的事情

for data_chunk in iter_maker():
y_chunk, design_chunk = dmatrices((y, dta), data_chunk,
NA_action="drop", return_type="dataframe")
# do something with y_chunk and design_chunk
# ...

关于python - 如何使用 Patsy 的 API 准备大型数据集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26501609/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com