- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我对在多核上运行时将 np.random.RandomState
与 sklearn.model_selection.RandomizedSearchCV
一起使用的正确方法感到困惑。
我使用RandomState
来生成伪随机数,以便我的结果是可重现的。我为 RandomizedSearchCV
提供一个 RandomState
实例,并设置 n_jobs=-1
以便它使用所有六个核心。
在多个核心上运行引入了异步元素。我预计这将导致在不同的运行中以不同的顺序从各个核心发出对伪随机数的请求。因此,不同的运行应该给出不同的结果,而不是显示重现性。
但实际上结果是可以重现的。对于给定的 n_iter 值(即从参数空间中抽取的次数),每次运行中找到的最佳超参数值都是相同的。如果 n_jobs
是小于核心数量的正数,我也会得到相同的值。
具体来说,代码如下:
import numpy as np
import scipy.stats as stats
from sklearn.datasets import load_iris
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import RandomizedSearchCV, StratifiedKFold, train_test_split
# Use RandomState for reproducibility.
random_state = np.random.RandomState(42)
# Get data. Split it into training and test sets.
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.4, random_state=random_state, stratify=y)
# Prepare for hyper-parameter optimization.
n_iter = 1_000
base_clf = GradientBoostingClassifier(
random_state=random_state, max_features='sqrt')
param_space = {'learning_rate': stats.uniform(0.05, 0.2),
'n_estimators': [50, 100, 200],
'subsample': stats.uniform(0.8, 0.2)}
# Generate data folds for cross validation.
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=random_state)
# Create the search classifier.
search_clf = RandomizedSearchCV(
base_clf, param_space, n_iter=n_iter, scoring='f1_weighted', n_jobs=-1,
cv=skf, random_state=random_state, return_train_score=False)
# Optimize the hyper-parameters and print the best ones found.
search_clf.fit(X_train, y_train)
print('Best params={}'.format(search_clf.best_params_))
我有几个问题。
尽管存在异步方面,为什么我仍能获得可重现的结果?
RandomizedSearchCV
的文档关于 random_state
参数的说明:“伪随机数生成器状态用于从可能值列表而不是 scipy.stats 分布中进行随机均匀采样。”这是否意味着它不会影响参数空间中的分布?上面的代码是否足以确保可重复性,或者我是否需要设置np.random.seed(),或者可能编写如下内容:
distn_learning_rate = stats.uniform(0.05, 0.2)
distn_learning_rate.random_state = random_state
distn_subsample = stats.uniform(0.8, 0.2)
distn_subsample.random_state = random_state
param_space = {'learning_rate': distn_learning_rate,
'n_estimators': [50, 100, 200],
'subsample': distn_subsample}
总的来说,这是设置 RandomizedSearchCV
以获得再现性的正确方法吗?
是否可以使用 RandomState
的单个实例,或者我应该为 train_test_split
、GradientBoostingClassifier
、 使用单独的实例StratifiedKFold
和 RandomizedSearchCV
?另外,np.random.seed
的文档表示在初始化 RandomState
时设置种子。它如何与 RandomizedSearchCV
设置种子交互?
当n_jobs
设置为使用少于所有核心时,我仍然看到所有核心上的事件,尽管每个核心的使用级别会增加,并且耗时会随着核心数量的增加而减少。核心增加。这只是 sklearn 和/或 macOS 优化机器使用吗?
我使用的是 macOS 10.14.2、Python 3.6.7、Numpy 1.15.4、Scipy 1.1.0 和 Sklearn 0.20.1。
最佳答案
候选参数是在使用 ParameterSampler object 传递到多线程功能之前生成的。 。所以只有一个random_state
足以保证 RandomizedSearchCV 的重现性。
请注意,我说的是"reproducibility of RandomizedSearchCV"
。对于其中使用的估计器(此处为base_clf
),每个估计器应携带自己的random_state
。正如你所做的那样。
现在谈论a single instance of RandomState
,对于顺序代码来说这是完全正确的。唯一需要担心的情况是多处理启动时。因此,让我们分析一下程序执行期间发生的步骤。
RandomState
带有种子的对象。现在它有一个状态了。train_test_split
,一个StratifiedShuffleSplit
使用(因为您已使用 stratify
参数),它将使用传递的 RandomState
对象在训练和测试数据中分割和生成排列。所以RandomState
的内部状态现在改变了。但它是连续的,无需担心。random_state
skf
中的对象。但直到 fit()
才会发生 split 。在RandomizedSearchCV
叫做。所以状态没有改变。之后,当 search_clf.fit
称为 the following happens :
_run_search()
被执行,它将使用 random_state
一次生成所有参数组合(根据给定 n_iters
)。所以多线程仍然没有发生,一切都很好。 evaluate_candidates()
叫做。有趣的部分是:
out = parallel(delayed(_fit_and_score)(clone(base_estimator),
X, y,
train=train, test=test,
parameters=parameters,
**fit_and_score_kwargs)
for parameters, (train, test)
in product(candidate_params,
cv.split(X, y, groups)))
parallel(delayed(_fit_and_score)
之后的部分仍然是顺序的,由父线程处理。
cv.split()
将使用random_state
(改变其状态)生成训练测试分割clone(estimator)
将克隆估计器的所有参数(还有random_state
)。所以RandomState
的状态改变了来自cv.split
对象成为 estimator
中的基本状态RandomState
被克隆以服务于估计器。因此结果是可重复的。RandomState
未使用,但每个估计器(线程)都会有自己的 RandomState
副本希望这是有道理的,并能回答您的问题。 Scikit-learn explicitly requests the user像这样设置:
import numpy as np
np.random.seed(42)
使整个执行过程可重现,但你正在做的事情也可以。
我不完全确定您的最后一个问题,因为我无法在我的系统上重现该问题。我有 4 个核心,当我设置 n_jobs=2
时或3
我只看到那些核心处于 100% 状态,并且保持在 20-30% 左右。我的系统规范:
System:
python: 3.6.6 |Anaconda, Inc.| (default, Jun 28 2018, 17:14:51) [GCC 7.2.0]
machine: Linux-4.15.0-20-generic-x86_64-with-debian-buster-sid
Python deps:
pip: 18.1
setuptools: 40.2.0
sklearn: 0.20.1
numpy: 1.15.4
scipy: 1.1.0
Cython: 0.29
pandas: 0.23.4
关于python - 如何在多核上将 RandomState 与 Sklearn RandomizedSearchCV 结合使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53726915/
我希望我的脚本在每次运行脚本时都创建相同的数字数组。之前我使用的是 np.random.seed()。例如: np.random.seed(1) X = np.random.random((3,2))
我使用Python阅读了深度学习的源代码。(Yusuke Sugomori DBN)。我无法理解的意思 numpy_rng = numpy.random.RandomState(1234) 。当我输入
是否有更直接的方式访问RandomState除 np.random..__self__ 之外的导入时创建的对象?两者 np.random._rand和 getattr(np.random, "_ran
我正在学习 Python,我发现了以下代码: rgen = np.random.RandomState(self.random_state) 在这段代码中,self.random_state 是一个i
我已经阅读了文档,但我仍然很难理解 numpy.random.RandomState(0) 或 numpy.random.seed(0) 难道它们都不能确保选择随机值的过程在整个运行过程中是相同且一致
我正在使用 joblib 并行运行蒙特卡罗模拟.然而,我注意到虽然我的种子是固定的,但我的结果一直在变化。但是,当我连续运行该过程时,它如我所料保持不变。 下面我实现了一个小例子,模拟具有较高方差的正
我试图将代码中随机数生成器的状态保存到文件中,然后再将其读回。生成的元组的形式为: tuple(str, 624 uints 的 ndarray, int, int, float) 返回的元组包含以下
我正在尝试从 1e5 个字符串中抽取 1e7 个项目,但出现内存错误。从 1e4 个字符串中抽取 1e6 个项目很好。我在一台有 4GB 内存的 64 位机器上,我认为我不应该在 1e7 时达到任何内
我对在多核上运行时将 np.random.RandomState 与 sklearn.model_selection.RandomizedSearchCV 一起使用的正确方法感到困惑。 我使用Rand
我有一门课,我想用 Numba 加快速度。该类通过简单地使用特定种子创建 NumPy 的 RandomState 实例,为每个实例使用一个“随机数生成器”(因此我可以稍后复制我的工作)。当我使用 Nu
我想用 hashlib 生成的哈希为 numpy.random.RandomState 实例播种,以使伪随机源始终为相同的输入数据生成相同的值。当我尝试这样做时: hash = sha256(some
像 C++ 这样的语言要求程序员设置随机数生成器的种子,否则它的输出将永远相同。但是,像 numpy 这样的库不需要您手动初始化种子。 例如,代码如下: from numpy.random impor
我知道要播种 numpy.random 的随机性并能够重现它,我应该: import numpy as np np.random.seed(1234) 但是什么np.random.RandomStat
我希望能够在 Python 的标准 Random 和 numpy 的 np.random.RandomState 之间来回转换。这两个都使用 Mersenne Twister 算法,因此应该是可能的(
我是一名优秀的程序员,十分优秀!