- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在学习 Azure 机器学习。我经常在某些步骤中遇到随机种子,例如,
在教程中,他们选择随机种子为“123”;训练好的模型具有很高的准确性,但是当我尝试选择其他随机整数(例如 245、256、12、321...)时,效果不佳。
<小时/>问题
借口
观察
<强>1。随机种子:321
<强>2。随机种子:123
<强>3。随机种子:12345
最佳答案
What is a Random Seed Integer?
不会详细介绍随机种子的一般含义;通过简单的网络搜索即可获得大量 Material (例如,参见 this SO thread )。
随机种子仅用于初始化(伪)随机数生成器,主要是为了使机器学习示例可重现。
How to carefully choose a Random Seed from range of integer values? What is the key or strategy to choose it?
可以说,上面已经隐含地回答了这个问题:您根本不应该选择任何特定的随机种子,并且您的结果在不同的随机种子中应该大致相同。
Why does Random Seed significantly affect the ML Scoring, Prediction and Quality of the trained model?
现在,谈谈你问题的核心。这里的答案(即虹膜数据集)是小样本效应...
首先,不同随机种子的报告结果并没有那么不同。尽管如此,我同意,乍一看,0.9 和 0.94 的宏观平均精度差异可能似乎很大;但仔细观察就会发现,差异实际上并不是问题。为什么?
使用(仅)150 个样本数据集的 20%,您的测试集(执行评估的地方)中只剩下 30 个样本;这是分层的,即每个类别大约有 10 个样本。现在,对于这么小的数据集,不难想象,仅 1-2 个样本的正确分类差异就会在性能上产生如此明显的差异报告的指标。
让我们尝试使用决策树分类器在 scikit-learn 中验证这一点(问题的本质并不取决于所使用的特定框架或 ML 算法):
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.model_selection import train_test_split
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=321, stratify=y)
dt = DecisionTreeClassifier()
dt.fit(X_train, y_train)
y_pred = dt.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))
结果:
[[10 0 0]
[ 0 9 1]
[ 0 0 10]]
precision recall f1-score support
0 1.00 1.00 1.00 10
1 1.00 0.90 0.95 10
2 0.91 1.00 0.95 10
micro avg 0.97 0.97 0.97 30
macro avg 0.97 0.97 0.97 30
weighted avg 0.97 0.97 0.97 30
让我们重复上面的代码,仅更改 train_test_split
中的 random_state
参数;对于 random_state=123
我们得到:
[[10 0 0]
[ 0 7 3]
[ 0 2 8]]
precision recall f1-score support
0 1.00 1.00 1.00 10
1 0.78 0.70 0.74 10
2 0.73 0.80 0.76 10
micro avg 0.83 0.83 0.83 30
macro avg 0.84 0.83 0.83 30
weighted avg 0.84 0.83 0.83 30
而对于 random_state=12345
我们得到:
[[10 0 0]
[ 0 8 2]
[ 0 0 10]]
precision recall f1-score support
0 1.00 1.00 1.00 10
1 1.00 0.80 0.89 10
2 0.83 1.00 0.91 10
micro avg 0.93 0.93 0.93 30
macro avg 0.94 0.93 0.93 30
weighted avg 0.94 0.93 0.93 30
查看 3 个混淆矩阵的绝对数字(在小样本中,百分比可能具有误导性),您应该能够让自己相信差异并没有那么大,并且可以通过整个过程中固有的随机元素来证明它们是合理的(这里是将数据集精确划分为训练和测试)。
如果您的测试集明显更大,这些差异实际上可以忽略不计......
最后通知;我使用了与您完全相同的种子数,但这实际上并不意味着什么,因为一般来说,跨平台和语言的随机数生成器并不相同,因此相应的种子实际上并不兼容。请参阅 Are random seeds compatible between systems? 中自己的答案进行演示。
关于machine-learning - Azure 机器学习中的随机种子是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56848293/
Sequelize 中有没有办法添加另一列,然后用另一列的内容填充它? 最佳答案 您可以使用迁移来做到这一点。 就像是 queryInterface.addColumn( 'MyAwesomeTa
如何计算info_hash参数?又名对应于信息字典的哈希?? 来自官方规范: info_hash The 20 byte sha1 hash of the bencoded form of the i
是否可以直接从数据库或服务等将 URL 获取到 Nutch。我对从数据库或服务获取数据并将其写入 Seed.txt 的方式不感兴趣. 最佳答案 没有。这不能直接使用默认的 nutch 代码库来完成。需
MessageDigest 类实现了 SHA-1 算法(以及许多其他算法)。 SHA-1 算法允许使用不同的“种子”或初始摘要。参见 SHA-1 Psuedocode 算法初始化变量,或种子: Ini
我想创建一个应用程序,其中登录密码可以作为伪随机数生成器的种子以重新创建加密 key 。然后,该加密 key 将用于加密发送到应用程序数据库和从应用程序数据库发送的所有数据,使用户数据甚至主机都无法访
这个问题在这里已经有了答案: Recommended way to initialize srand? (15 个答案) 关闭 8 年前。 使用 srand(time(NULL))似乎过于确定性。例
我在获取要在我的自定义数据库初始值设定项上调用的 Seed 方法时遇到问题。我正在使用 EF 5.0 并具有以下代码: public static class MyDatabase { pub
是否可以像在 Rails 中那样“播种”数据库?我想将种子与图像对象管理器结合使用,以便我可以按标题获取记录。 最佳答案 根据您对 Ingo 的回答留下的评论,您想将 requireDefaultRe
我现在设置了一个应用程序来使用 EF6 代码优先迁移。我使用 Add-Migration 的标准工作流程,然后在控制台中使用 Update-Database。我在本地以及我们的开发环境中使用 Migr
如果 Name 返回然后删除 first name Name john Age 30 Name Alice Name Travis Age 12 Name Monty Name Hannah 期望的输
在迁移完成后,是否可以在我的迁移中放入一些东西来自动为表播种测试数据? 或者您必须单独播种? 最佳答案 您可以使用 --seed 选项调用 migrate:refresh 以在迁移完成后自动播种: p
我正在尝试使用不同的种子生成 scipy.stats.pareto.rvs(b, loc=0, scale=1, size=1)。 在 numpy 中,我们可以使用 numpy.random.seed
我的种子有问题。这是我的表结构: 1.Complaints: Schema::create('complaints', function (Blueprint $table) {
我在使用数据库初始化程序时遇到问题 - 从未调用过种子方法。类似的代码在另一个项目中工作,所以我很困惑为什么他们这次不工作。 这是我的代码: RecipeContext.cs public c
我正在尝试做一些我认为非常简单的事情,只需使用 RAND 创建 0-1 之间的随机数,并将其分配给十进制变量。但每次我在 MySQL 中运行代码时,它都会返回零! 参见下面的代码: DELIMITER
我有一个问题...... 这里我们得到了一个二维字节数组: byte[][] duengonMap = new byte[500][500]; 因为我想将它从客户端发送到服务器或者相反,我需要将其放入
我尝试在我的计算机上运行 Angular-seed(Windows 10,上次更新)https://github.com/angular/angular-seed 。网络工作正常,但我的 Protra
我有一个随机过程的分布式过程。因此,我使用 numpy.random.RandomState 来播种数字。问题是我必须在包装器中使用另一个 numpy.random 函数。现在我失去了种子的再现性,因
我需要确保我程序中的所有随机性都是完全可复制的。我应该在哪里调用 random.seed()? 我认为它应该在我的 main.py 模块中,但它导入了碰巧使用随机函数的其他模块。 我可以仔细浏览我的导
首先尝试使用 Entity Framework 和代码在 ASP.NET 网络应用程序中植入数据。我将这段代码放在 Configuration.cs 文件的 Seed() 方法中。现在,我正在处理解决
我是一名优秀的程序员,十分优秀!