- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我对在多核上运行时将 np.random.RandomState
与 sklearn.model_selection.RandomizedSearchCV
一起使用的正确方法感到困惑。
我使用RandomState
来生成伪随机数,以便我的结果是可重现的。我为 RandomizedSearchCV
提供一个 RandomState
实例,并设置 n_jobs=-1
以便它使用所有六个核心。
在多个核心上运行引入了异步元素。我预计这将导致在不同的运行中以不同的顺序从各个核心发出对伪随机数的请求。因此,不同的运行应该给出不同的结果,而不是显示重现性。
但实际上结果是可以重现的。对于给定的 n_iter 值(即从参数空间中抽取的次数),每次运行中找到的最佳超参数值都是相同的。如果 n_jobs
是小于核心数量的正数,我也会得到相同的值。
具体来说,代码如下:
import numpy as np
import scipy.stats as stats
from sklearn.datasets import load_iris
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import RandomizedSearchCV, StratifiedKFold, train_test_split
# Use RandomState for reproducibility.
random_state = np.random.RandomState(42)
# Get data. Split it into training and test sets.
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.4, random_state=random_state, stratify=y)
# Prepare for hyper-parameter optimization.
n_iter = 1_000
base_clf = GradientBoostingClassifier(
random_state=random_state, max_features='sqrt')
param_space = {'learning_rate': stats.uniform(0.05, 0.2),
'n_estimators': [50, 100, 200],
'subsample': stats.uniform(0.8, 0.2)}
# Generate data folds for cross validation.
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=random_state)
# Create the search classifier.
search_clf = RandomizedSearchCV(
base_clf, param_space, n_iter=n_iter, scoring='f1_weighted', n_jobs=-1,
cv=skf, random_state=random_state, return_train_score=False)
# Optimize the hyper-parameters and print the best ones found.
search_clf.fit(X_train, y_train)
print('Best params={}'.format(search_clf.best_params_))
我有几个问题。
尽管存在异步方面,为什么我仍能获得可重现的结果?
RandomizedSearchCV
的文档关于 random_state
参数的说明:“伪随机数生成器状态用于从可能值列表而不是 scipy.stats 分布中进行随机均匀采样。”这是否意味着它不会影响参数空间中的分布?上面的代码是否足以确保可重复性,或者我是否需要设置np.random.seed(),或者可能编写如下内容:
distn_learning_rate = stats.uniform(0.05, 0.2)
distn_learning_rate.random_state = random_state
distn_subsample = stats.uniform(0.8, 0.2)
distn_subsample.random_state = random_state
param_space = {'learning_rate': distn_learning_rate,
'n_estimators': [50, 100, 200],
'subsample': distn_subsample}
总的来说,这是设置 RandomizedSearchCV
以获得再现性的正确方法吗?
是否可以使用 RandomState
的单个实例,或者我应该为 train_test_split
、GradientBoostingClassifier
、 使用单独的实例StratifiedKFold
和 RandomizedSearchCV
?另外,np.random.seed
的文档表示在初始化 RandomState
时设置种子。它如何与 RandomizedSearchCV
设置种子交互?
当n_jobs
设置为使用少于所有核心时,我仍然看到所有核心上的事件,尽管每个核心的使用级别会增加,并且耗时会随着核心数量的增加而减少。核心增加。这只是 sklearn 和/或 macOS 优化机器使用吗?
我使用的是 macOS 10.14.2、Python 3.6.7、Numpy 1.15.4、Scipy 1.1.0 和 Sklearn 0.20.1。
最佳答案
候选参数是在使用 ParameterSampler object 传递到多线程功能之前生成的。 。所以只有一个random_state
足以保证 RandomizedSearchCV 的重现性。
请注意,我说的是"reproducibility of RandomizedSearchCV"
。对于其中使用的估计器(此处为base_clf
),每个估计器应携带自己的random_state
。正如你所做的那样。
现在谈论a single instance of RandomState
,对于顺序代码来说这是完全正确的。唯一需要担心的情况是多处理启动时。因此,让我们分析一下程序执行期间发生的步骤。
RandomState
带有种子的对象。现在它有一个状态了。train_test_split
,一个StratifiedShuffleSplit
使用(因为您已使用 stratify
参数),它将使用传递的 RandomState
对象在训练和测试数据中分割和生成排列。所以RandomState
的内部状态现在改变了。但它是连续的,无需担心。random_state
skf
中的对象。但直到 fit()
才会发生 split 。在RandomizedSearchCV
叫做。所以状态没有改变。之后,当 search_clf.fit
称为 the following happens :
_run_search()
被执行,它将使用 random_state
一次生成所有参数组合(根据给定 n_iters
)。所以多线程仍然没有发生,一切都很好。 evaluate_candidates()
叫做。有趣的部分是:
out = parallel(delayed(_fit_and_score)(clone(base_estimator),
X, y,
train=train, test=test,
parameters=parameters,
**fit_and_score_kwargs)
for parameters, (train, test)
in product(candidate_params,
cv.split(X, y, groups)))
parallel(delayed(_fit_and_score)
之后的部分仍然是顺序的,由父线程处理。
cv.split()
将使用random_state
(改变其状态)生成训练测试分割clone(estimator)
将克隆估计器的所有参数(还有random_state
)。所以RandomState
的状态改变了来自cv.split
对象成为 estimator
中的基本状态RandomState
被克隆以服务于估计器。因此结果是可重复的。RandomState
未使用,但每个估计器(线程)都会有自己的 RandomState
副本希望这是有道理的,并能回答您的问题。 Scikit-learn explicitly requests the user像这样设置:
import numpy as np
np.random.seed(42)
使整个执行过程可重现,但你正在做的事情也可以。
我不完全确定您的最后一个问题,因为我无法在我的系统上重现该问题。我有 4 个核心,当我设置 n_jobs=2
时或3
我只看到那些核心处于 100% 状态,并且保持在 20-30% 左右。我的系统规范:
System:
python: 3.6.6 |Anaconda, Inc.| (default, Jun 28 2018, 17:14:51) [GCC 7.2.0]
machine: Linux-4.15.0-20-generic-x86_64-with-debian-buster-sid
Python deps:
pip: 18.1
setuptools: 40.2.0
sklearn: 0.20.1
numpy: 1.15.4
scipy: 1.1.0
Cython: 0.29
pandas: 0.23.4
关于python - 如何在多核上将 RandomState 与 Sklearn RandomizedSearchCV 结合使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53726915/
我在网上搜索但没有找到任何合适的文章解释如何使用 javascript 使用 WCF 服务,尤其是 WebScriptEndpoint。 任何人都可以对此给出任何指导吗? 谢谢 最佳答案 这是一篇关于
我正在编写一个将运行 Linux 命令的 C 程序,例如: cat/etc/passwd | grep 列表 |剪切-c 1-5 我没有任何结果 *这里 parent 等待第一个 child (chi
所以我正在尝试处理文件上传,然后将该文件作为二进制文件存储到数据库中。在我存储它之后,我尝试在给定的 URL 上提供文件。我似乎找不到适合这里的方法。我需要使用数据库,因为我使用 Google 应用引
我正在尝试制作一个宏,将下面的公式添加到单元格中,然后将其拖到整个列中并在 H 列中复制相同的公式 我想在 F 和 H 列中输入公式的数据 Range("F1").formula = "=IF(ISE
问题类似于this one ,但我想使用 OperatorPrecedenceParser 解析带有函数应用程序的表达式在 FParsec . 这是我的 AST: type Expression =
我想通过使用 sequelize 和 node.js 将这个查询更改为代码取决于在哪里 select COUNT(gender) as genderCount from customers where
我正在使用GNU bash,版本5.0.3(1)-发行版(x86_64-pc-linux-gnu),我想知道为什么简单的赋值语句会出现语法错误: #/bin/bash var1=/tmp
这里,为什么我的代码在 IE 中不起作用。我的代码适用于所有浏览器。没有问题。但是当我在 IE 上运行我的项目时,它发现错误。 而且我的 jquery 类和 insertadjacentHTMl 也不
我正在尝试更改标签的innerHTML。我无权访问该表单,因此无法编辑 HTML。标签具有的唯一标识符是“for”属性。 这是输入和标签的结构:
我有一个页面,我可以在其中返回用户帖子,可以使用一些 jquery 代码对这些帖子进行即时评论,在发布新评论后,我在帖子下插入新评论以及删除 按钮。问题是 Delete 按钮在新插入的元素上不起作用,
我有一个大约有 20 列的“管道分隔”文件。我只想使用 sha1sum 散列第一列,它是一个数字,如帐号,并按原样返回其余列。 使用 awk 或 sed 执行此操作的最佳方法是什么? Accounti
我需要将以下内容插入到我的表中...我的用户表有五列 id、用户名、密码、名称、条目。 (我还没有提交任何东西到条目中,我稍后会使用 php 来做)但由于某种原因我不断收到这个错误:#1054 - U
所以我试图有一个输入字段,我可以在其中输入任何字符,但然后将输入的值小写,删除任何非字母数字字符,留下“。”而不是空格。 例如,如果我输入: 地球的 70% 是水,-!*#$^^ & 30% 土地 输
我正在尝试做一些我认为非常简单的事情,但出于某种原因我没有得到想要的结果?我是 javascript 的新手,但对 java 有经验,所以我相信我没有使用某种正确的规则。 这是一个获取输入值、检查选择
我想使用 angularjs 从 mysql 数据库加载数据。 这就是应用程序的工作原理;用户登录,他们的用户名存储在 cookie 中。该用户名显示在主页上 我想获取这个值并通过 angularjs
我正在使用 autoLayout,我想在 UITableViewCell 上放置一个 UIlabel,它应该始终位于单元格的右侧和右侧的中心。 这就是我想要实现的目标 所以在这里你可以看到我正在谈论的
我需要与 MySql 等效的 elasticsearch 查询。我的 sql 查询: SELECT DISTINCT t.product_id AS id FROM tbl_sup_price t
我正在实现代码以使用 JSON。 func setup() { if let flickrURL = NSURL(string: "https://api.flickr.com/
我尝试使用for循环声明变量,然后测试cols和rols是否相同。如果是,它将运行递归函数。但是,我在 javascript 中执行 do 时遇到问题。有人可以帮忙吗? 现在,在比较 col.1 和
我举了一个我正在处理的问题的简短示例。 HTML代码: 1 2 3 CSS 代码: .BB a:hover{ color: #000; } .BB > li:after {
我是一名优秀的程序员,十分优秀!