- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我的代码在较小的测试样本上运行良好,例如 X_train
、y_train
中的 10000 行数据。当我为数百万行调用它时,我得到了结果错误。是包中的错误,还是我可以做一些不同的事情?我正在使用来自 Anaconda 2.0.1 的 Python 2.7.7,我将 Anaconda 的多处理包中的 pool.py 和 scikit-learn 的外部包中的 parallel.py 放在我的 Dropbox 上。
测试脚本是:
import numpy as np
import sklearn
from sklearn.linear_model import SGDClassifier
from sklearn import grid_search
import multiprocessing as mp
def main():
print("Started.")
print("numpy:", np.__version__)
print("sklearn:", sklearn.__version__)
n_samples = 1000000
n_features = 1000
X_train = np.random.randn(n_samples, n_features)
y_train = np.random.randint(0, 2, size=n_samples)
print("input data size: %.3fMB" % (X_train.nbytes / 1e6))
model = SGDClassifier(penalty='elasticnet', n_iter=10, shuffle=True)
param_grid = [{
'alpha' : 10.0 ** -np.arange(1,7),
'l1_ratio': [.05, .15, .5, .7, .9, .95, .99, 1],
}]
gs = grid_search.GridSearchCV(model, param_grid, n_jobs=8, verbose=100)
gs.fit(X_train, y_train)
print(gs.grid_scores_)
if __name__=='__main__':
mp.freeze_support()
main()
这导致输出:
Vendor: Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Started.
('numpy:', '1.8.1')
('sklearn:', '0.15.0b1')
input data size: 8000.000MB
Fitting 3 folds for each of 48 candidates, totalling 144 fits
Memmaping (shape=(1000000L, 1000L), dtype=float64) to new file c:\users\laszlos\appdata\local\temp\4\joblib_memmaping_pool_6172_78765976\6172-284752304-75223296-0.pkl
Failed to save <type 'numpy.ndarray'> to .npy file:
Traceback (most recent call last):
File "C:\Anaconda\lib\site-packages\sklearn\externals\joblib\numpy_pickle.py", line 240, in save
obj, filename = self._write_array(obj, filename)
File "C:\Anaconda\lib\site-packages\sklearn\externals\joblib\numpy_pickle.py", line 203, in _write_array
self.np.save(filename, array)
File "C:\Anaconda\lib\site-packages\numpy\lib\npyio.py", line 453, in save
format.write_array(fid, arr)
File "C:\Anaconda\lib\site-packages\numpy\lib\format.py", line 406, in write_array
array.tofile(fp)
ValueError: 1000000000 requested and 268435456 written
Memmaping (shape=(1000000L, 1000L), dtype=float64) to old file c:\users\laszlos\appdata\local\temp\4\joblib_memmaping_pool_6172_78765976\6172-284752304-75223296-0.pkl
Vendor: Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Vendor: Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Vendor: Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Vendor: Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Vendor: Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Vendor: Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Vendor: Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Vendor: Continuum Analytics, Inc.
Package: mkl
Message: trial mode expires in 28 days
Traceback (most recent call last):
File "S:\laszlo\gridsearch_largearray.py", line 33, in <module>
main()
File "S:\laszlo\gridsearch_largearray.py", line 28, in main
gs.fit(X_train, y_train)
File "C:\Anaconda\lib\site-packages\sklearn\grid_search.py", line 597, in fit
return self._fit(X, y, ParameterGrid(self.param_grid))
File "C:\Anaconda\lib\site-packages\sklearn\grid_search.py", line 379, in _fit
for parameters in parameter_iterable
File "C:\Anaconda\lib\site-packages\sklearn\externals\joblib\parallel.py", line 651, in __call__
self.retrieve()
File "C:\Anaconda\lib\site-packages\sklearn\externals\joblib\parallel.py", line 503, in retrieve
self._output.append(job.get())
File "C:\Anaconda\lib\multiprocessing\pool.py", line 558, in get
raise self._value
struct.error: integer out of range for 'i' format code
编辑:ogrisel
的答案确实适用于 scikit-learn-0.15.0b1 的手动内存映射。不要忘记一次只运行一个脚本,否则您仍然会耗尽内存并拥有太多线程。 (我的运行需要 ~60 GB 的 CSV 数据,大小为 ~12.5 GB,有 8 个线程。)
最佳答案
作为一种变通方法,您可以尝试将数据显式和手动内存映射为 explained in the joblib documentation .
编辑#1:这是重要的部分:
from sklearn.externals import joblib
joblib.dump(X_train, some_filename)
X_train = joblib.load(some_filename, mmap_mode='r+')
然后将这个 memmap 数据传递给 scikit-learn 0.15+ 下的 GridSearchCV
。
编辑 #2: 此外:如果您使用 32 位版本的 Anaconda,每个 python 进程将被限制为 2GB,这也会限制内存。
我刚找到一个 bug对于 Python 3.4 下的 numpy.save
但即使修复后对 mmap 的后续调用也会失败:
OSError: [WinError 8] Not enough storage is available to process this command
所以请使用 64 位版本的 Python(Anaconda 作为 AFAIK 目前没有其他 64 位包用于 numpy/scipy/scikit-learn==0.15.0b1)。
编辑 #3: 我发现了另一个可能导致 Windows 下内存使用过多的问题:当前 joblib.Parallel
内存映射输入数据与 mmap_mode=' c'
默认情况下:此写时复制设置似乎会导致 Windows 耗尽分页文件,有时会触发“[错误 1455] 分页文件太小,无法完成此操作”错误。设置 mmap_mode='r'
或 mmap_mode='r+'
不会触发该问题。我将运行测试以查看是否可以在下一版本的 joblib 中更改默认模式。
关于python - scikit-learn joblib 错误 : multiprocessing pool self. 值超出 'i' 格式代码的范围,仅适用于大型 numpy 数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24406937/
我正在尝试使用多处理和队列实现生产者-消费者场景;主进程是生产者,两个子进程使用队列中的数据。这在没有任何异常 发生的情况下有效,但问题是我希望能够在工作人员死亡时重新启动他们(kill -9 wor
我试图在一个管理进程下启动一个数据队列服务器(这样它以后可以变成一个服务),虽然数据队列服务器功能在主进程中工作正常,但它在一个进程中不起作用使用 multiprocessing.Process 创建
我的多处理需求非常简单:我从事机器学习工作,有时我需要评估多个数据集中的一个算法,或者一个数据集中的多个算法,等等。我只需要运行一个带有一些参数的函数并获取一个数字。 我不需要 RPC、共享数据,什么
创建进程池或简单地遍历一个进程以创建更多进程之间有任何区别(以任何方式)吗? 这有什么区别?: pool = multiprocessing.Pool(5) pool.apply_async(work
multiprocessing.BoundedSemaphore(3) 与 multiprocessing.Sempahore(3) 有何不同? 我希望 multiprocessing.Bounded
我尝试通过 multiprocessing 包中的 Queue 对 Pipe 的速度进行基准测试。我认为 Pipe 会更快,因为 Queue 在内部使用 Pipe。 奇怪的是,Pipe 在发送大型 n
我有这样一个简单的任务: def worker(queue): while True: try: _ = queue.get_nowait()
我正在尝试编写一个与 multiprocessing.Pool 同时应用函数的应用程序。我希望这个函数成为一个实例方法(所以我可以在不同的子类中以不同的方式定义它)。这似乎是不可能的;正如我在其他地方
在 python 2 中,multiprocessing.dummy.Pool 和 multiprocessing.pool.ThreadPool 之间有什么区别吗?源代码似乎暗示它们是相同的。 最佳
我正在开发一个用于财务目的的模型。我将整个 S&P500 组件放在一个文件夹中,存储了尽可能多的 .hdf 文件。每个 .hdf 文件都有自己的多索引(年-周-分)。 顺序代码示例(非并行化): im
到目前为止,我是这样做的: rets=set(pool.map_async(my_callback, args.hosts).get(60*4)) 如果超时,我会得到一个异常: File "/usr
参见下面的示例和执行结果: #!/usr/bin/env python3.4 from multiprocessing import Pool import time import os def in
我的任务是监听 UDP 数据报,对其进行解码(数据报具有二进制信息),将解码后的信息放入字典中,将字典转储为 json 字符串,然后将 json 字符串发送到远程服务器(ActiveMQ)。 解码和发
我在 macOS 上工作,最近被 Python 3.8 多处理中“fork”到“spawn”的变化所困扰(参见 doc )。下面显示了一个简化的工作示例,其中使用“fork”成功但使用“spawn”失
multiprocessing.Queue 的文档指出从项目入队到其腌制表示刷新到底层管道之间存在一点延迟。显然,您可以将一个项目直接放入管道中(它没有说明其他情况,并且暗示情况就是如此)。 为什么管
我运行了一些测试代码来检查在 Linux 中使用 Pool 和 Process 的性能。我正在使用 Python 2.7。 multiprocessing.Pool 的源代码似乎显示它正在使用 mul
我在 Windows Standard Embedded 7 上运行 python 3.4.3。我有一个继承 multiprocessing.Process 的类。 在类的 run 方法中,我为进程对
我知道multiprocessing.Process类似于 threading.Thread当我子类 multiprocessing.Process 时要创建一个进程,我发现我不必调用 __init_
我有教科书声明说在多处理器系统中不建议禁用中断,并且会花费太多时间。但我不明白这一点,谁能告诉我多处理器系统禁用中断的过程?谢谢 最佳答案 在 x86(和其他架构,AFAIK)上,启用/禁用中断是基于
我正在执行下面的代码并且它工作正常,但它不会产生不同的进程,而是有时所有都在同一个进程中运行,有时 2 个在一个进程中运行。我正在使用 4 cpu 机器。这段代码有什么问题? def f(values
我是一名优秀的程序员,十分优秀!