python - 如何在多核上将 RandomState 与 Sklearn RandomizedSearchCV 结合使用-6ren

python - 如何在多核上将 RandomState 与 Sklearn RandomizedSearchCV 结合使用

转载作者：行者123 更新时间：2023-12-01 01:22:02

我对在多核上运行时将 np.random.RandomState 与 sklearn.model_selection.RandomizedSearchCV 一起使用的正确方法感到困惑。

我使用RandomState来生成伪随机数，以便我的结果是可重现的。我为 RandomizedSearchCV 提供一个 RandomState 实例，并设置 n_jobs=-1 以便它使用所有六个核心。

在多个核心上运行引入了异步元素。我预计这将导致在不同的运行中以不同的顺序从各个核心发出对伪随机数的请求。因此，不同的运行应该给出不同的结果，而不是显示重现性。

但实际上结果是可以重现的。对于给定的 n_iter 值(即从参数空间中抽取的次数)，每次运行中找到的最佳超参数值都是相同的。如果 n_jobs 是小于核心数量的正数，我也会得到相同的值。

具体来说，代码如下:

import numpy as np
import scipy.stats as stats
from sklearn.datasets import load_iris
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import RandomizedSearchCV, StratifiedKFold, train_test_split

# Use RandomState for reproducibility.
random_state = np.random.RandomState(42)

# Get data. Split it into training and test sets.
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.4, random_state=random_state, stratify=y)

# Prepare for hyper-parameter optimization.
n_iter = 1_000

base_clf = GradientBoostingClassifier(
    random_state=random_state, max_features='sqrt')

param_space = {'learning_rate': stats.uniform(0.05, 0.2),
               'n_estimators': [50, 100, 200],
               'subsample': stats.uniform(0.8, 0.2)}

# Generate data folds for cross validation.
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=random_state)

# Create the search classifier.
search_clf = RandomizedSearchCV(
    base_clf, param_space, n_iter=n_iter, scoring='f1_weighted', n_jobs=-1, 
    cv=skf, random_state=random_state, return_train_score=False)

# Optimize the hyper-parameters and print the best ones found.
search_clf.fit(X_train, y_train)
print('Best params={}'.format(search_clf.best_params_))

我有几个问题。

尽管存在异步方面，为什么我仍能获得可重现的结果？

RandomizedSearchCV 的文档关于 random_state 参数的说明:“伪随机数生成器状态用于从可能值列表而不是 scipy.stats 分布中进行随机均匀采样。”这是否意味着它不会影响参数空间中的分布？上面的代码是否足以确保可重复性，或者我是否需要设置np.random.seed()，或者可能编写如下内容:

distn_learning_rate = stats.uniform(0.05, 0.2)  
distn_learning_rate.random_state = random_state  
distn_subsample = stats.uniform(0.8, 0.2)  
distn_subsample.random_state = random_state  
param_space = {'learning_rate': distn_learning_rate,  
               'n_estimators': [50, 100, 200],  
               'subsample': distn_subsample}

总的来说，这是设置 RandomizedSearchCV 以获得再现性的正确方法吗？
是否可以使用 RandomState 的单个实例，或者我应该为 train_test_split、GradientBoostingClassifier、 使用单独的实例StratifiedKFold 和 RandomizedSearchCV？另外，np.random.seed 的文档表示在初始化 RandomState 时设置种子。它如何与 RandomizedSearchCV 设置种子交互？
当n_jobs设置为使用少于所有核心时，我仍然看到所有核心上的事件，尽管每个核心的使用级别会增加，并且耗时会随着核心数量的增加而减少。核心增加。这只是 sklearn 和/或 macOS 优化机器使用吗？

我使用的是 macOS 10.14.2、Python 3.6.7、Numpy 1.15.4、Scipy 1.1.0 和 Sklearn 0.20.1。

最佳答案

候选参数是在使用 ParameterSampler object 传递到多线程功能之前生成的。。所以只有一个random_state足以保证 RandomizedSearchCV 的重现性。

请注意，我说的是"reproducibility of RandomizedSearchCV" 。对于其中使用的估计器(此处为base_clf)，每个估计器应携带自己的random_state。正如你所做的那样。

现在谈论a single instance of RandomState ，对于顺序代码来说这是完全正确的。唯一需要担心的情况是多处理启动时。因此，让我们分析一下程序执行期间发生的步骤。

您设置了 RandomState带有种子的对象。现在它有一个状态了。
内部train_test_split ，一个StratifiedShuffleSplit使用(因为您已使用 stratify 参数)，它将使用传递的 RandomState对象在训练和测试数据中分割和生成排列。所以RandomState的内部状态现在改变了。但它是连续的，无需担心。
现在你设置这个random_state skf 中的对象。但直到 fit() 才会发生 split 。在RandomizedSearchCV叫做。所以状态没有改变。
之后，当 search_clf.fit称为 the following happens :
1. _run_search() 被执行，它将使用 random_state一次生成所有参数组合(根据给定 n_iters )。所以多线程仍然没有发生，一切都很好。
2. evaluate_candidates() 叫做。有趣的部分是:
```
out = parallel(delayed(_fit_and_score)(clone(base_estimator),
                                           X, y,
                                           train=train, test=test,
                                           parameters=parameters,
                                           **fit_and_score_kwargs)
                   for parameters, (train, test)
                   in product(candidate_params,
                              cv.split(X, y, groups)))
```
3. parallel(delayed(_fit_and_score)之后的部分仍然是顺序的，由父线程处理。
  - cv.split()将使用random_state (改变其状态)生成训练测试分割
  - clone(estimator)将克隆估计器的所有参数(还有random_state)。所以RandomState的状态改变了来自cv.split对象成为 estimator 中的基本状态
  - 上述两个步骤从父线程发生多次(分片数 x 参数组合次数)(无异步性)。而且每次都是原创RandomState被克隆以服务于估计器。因此结果是可重复的。
  - 所以当实际的多线程部分启动时，原来的RandomState未使用，但每个估计器(线程)都会有自己的 RandomState 副本

希望这是有道理的，并能回答您的问题。 Scikit-learn explicitly requests the user像这样设置:

import numpy as np
np.random.seed(42)

使整个执行过程可重现，但你正在做的事情也可以。

我不完全确定您的最后一个问题，因为我无法在我的系统上重现该问题。我有 4 个核心，当我设置 n_jobs=2 时或3我只看到那些核心处于 100% 状态，并且保持在 20-30% 左右。我的系统规范:

System:
    python: 3.6.6 |Anaconda, Inc.| (default, Jun 28 2018, 17:14:51)  [GCC 7.2.0]
   machine: Linux-4.15.0-20-generic-x86_64-with-debian-buster-sid

Python deps:
       pip: 18.1
setuptools: 40.2.0
   sklearn: 0.20.1
     numpy: 1.15.4
     scipy: 1.1.0
    Cython: 0.29
    pandas: 0.23.4

关于python - 如何在多核上将 RandomState 与 Sklearn RandomizedSearchCV 结合使用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53726915/

文章推荐： JQuery如何获取内联样式值

文章推荐： Python 请求 - 上传 Zip 文件

文章推荐： algorithm - 大 O 符号是否适用于 while(true) 循环？

文章推荐： google-app-engine - 谷歌云存储 CNAME URL 重定向

python - 如何使用 random.RandomState
我希望我的脚本在每次运行脚本时都创建相同的数字数组。之前我使用的是 np.random.seed()。例如: np.random.seed(1) X = np.random.random((3,2))
python - 无法理解 numpy.random.RandomState
我使用Python阅读了深度学习的源代码。(Yusuke Sugomori DBN)。我无法理解的意思 numpy_rng = numpy.random.RandomState(1234) 。当我输入
python - 直接访问 Numpy RandomState 对象的方法
是否有更直接的方式访问RandomState除 np.random..__self__ 之外的导入时创建的对象？两者 np.random._rand和 getattr(np.random, "_ran
python - 为什么我可以调用 Numpy RandomState 方法？
我正在学习 Python，我发现了以下代码: rgen = np.random.RandomState(self.random_state) 在这段代码中，self.random_state 是一个i
python - numpy 中 RandomState 和种子之间的区别
我已经阅读了文档，但我仍然很难理解 numpy.random.RandomState(0) 或 numpy.random.seed(0) 难道它们都不能确保选择随机值的过程在整个运行过程中是相同且一致
python - 为什么 numpy 随机种子没有保持固定但 RandomState 在并行运行时是？
我正在使用 joblib 并行运行蒙特卡罗模拟.然而，我注意到虽然我的种子是固定的，但我的结果一直在变化。但是，当我连续运行该过程时，它如我所料保持不变。下面我实现了一个小例子，模拟具有较高方差的正
python - 读取元组并将其写入文件(numpy.random.RandomState.get_state)
我试图将代码中随机数生成器的状态保存到文件中，然后再将其读回。生成的元组的形式为: tuple(str, 624 uints 的 ndarray, int, int, float) 返回的元组包含以下
python - 如何解决 mtrand.RandomState.choice 中的内存错误？
我正在尝试从 1e5 个字符串中抽取 1e7 个项目，但出现内存错误。从 1e4 个字符串中抽取 1e6 个项目很好。我在一台有 4GB 内存的 64 位机器上，我认为我不应该在 1e7 时达到任何内
python - 如何在多核上将 RandomState 与 Sklearn RandomizedSearchCV 结合使用
我对在多核上运行时将 np.random.RandomState 与 sklearn.model_selection.RandomizedSearchCV 一起使用的正确方法感到困惑。我使用Rand
python - 尝试实例化 NumPy RandomState 时出现 Numba 错误
我有一门课，我想用 Numba 加快速度。该类通过简单地使用特定种子创建 NumPy 的 RandomState 实例，为每个实例使用一个“随机数生成器”(因此我可以稍后复制我的工作)。当我使用 Nu
python - 使用 hashlib 散列种子 numpy.random.RandomState
我想用 hashlib 生成的哈希为 numpy.random.RandomState 实例播种，以使伪随机源始终为相同的输入数据生成相同的值。当我尝试这样做时: hash = sha256(some
python - 每当调用 rand() 时，是否会自动调用 numpy.random.RandomState()？
像 C++ 这样的语言要求程序员设置随机数生成器的种子，否则它的输出将永远相同。但是，像 numpy 这样的库不需要您手动初始化种子。例如，代码如下: from numpy.random impor
python - np.random.seed() 和 np.random.RandomState() 之间的区别
我知道要播种 numpy.random 的随机性并能够重现它，我应该: import numpy as np np.random.seed(1234) 但是什么np.random.RandomStat
python - 与 numpy 的 np.random.RandomState 和 Python 的 random.Random 相互转换？
我希望能够在 Python 的标准 Random 和 numpy 的 np.random.RandomState 之间来回转换。这两个都使用 Mersenne Twister 算法，因此应该是可能的(

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何在多核上将 RandomState 与 Sklearn RandomizedSearchCV 结合使用