- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章python机器学习库xgboost的使用由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
1.数据读取 。
利用原生xgboost库读取libsvm数据 。
1
2
|
import
xgboost as xgb
data
=
xgb.DMatrix(libsvm文件)
|
使用sklearn读取libsvm数据 。
1
2
|
from
sklearn.datasets
import
load_svmlight_file
X_train,y_train
=
load_svmlight_file(libsvm文件)
|
使用pandas读取完数据后在转化为标准形式 。
2.模型训练过程 。
1.未调参基线模型 。
使用xgboost原生库进行训练 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
import
xgboost as xgb
from
sklearn.metrics
import
accuracy_score
dtrain
=
xgb.DMatrix(f_train, label
=
l_train)
dtest
=
xgb.DMatrix(f_test, label
=
l_test)
param
=
{
'max_depth'
:
2
,
'eta'
:
1
,
'silent'
:
0
,
'objective'
:
'binary:logistic'
}
num_round
=
2
bst
=
xgb.train(param, dtrain, num_round)
train_preds
=
bst.predict(dtrain)
train_predictions
=
[
round
(value)
for
value
in
train_preds]
#进行四舍五入的操作--变成0.1(算是设定阈值的符号函数)
train_accuracy
=
accuracy_score(l_train, train_predictions)
#使用sklearn进行比较正确率
print
(
"Train Accuary: %.2f%%"
%
(train_accuracy
*
100.0
))
from
xgboost
import
plot_importance
#显示特征重要性
plot_importance(bst)
#打印重要程度结果。
pyplot.show()
|
使用XGBClassifier进行训练 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
# 未设定早停止, 未进行矩阵变换
from
xgboost
import
XGBClassifier
from
sklearn.datasets
import
load_svmlight_file
#用于直接读取svmlight文件形式, 否则就需要使用xgboost.DMatrix(文件名)来读取这种格式的文件
from
sklearn.metrics
import
accuracy_score
from
matplotlib
import
pyplot
num_round
=
100
bst1
=
XGBClassifier(max_depth
=
2
, learning_rate
=
1
, n_estimators
=
num_round,
#弱分类树太少的话取不到更多的特征重要性
silent
=
True
, objective
=
'binary:logistic'
)
bst1.fit(f_train, l_train)
train_preds
=
bst1.predict(f_train)
train_accuracy
=
accuracy_score(l_train, train_preds)
print
(
"Train Accuary: %.2f%%"
%
(train_accuracy
*
100.0
))
preds
=
bst1.predict(f_test)
test_accuracy
=
accuracy_score(l_test, preds)
print
(
"Test Accuracy: %.2f%%"
%
(test_accuracy
*
100.0
))
from
xgboost
import
plot_importance
#显示特征重要性
plot_importance(bst1)
#打印重要程度结果。
pyplot.show()
|
2.两种交叉验证方式 。
使用cross_val_score进行交叉验证 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
#利用model_selection进行交叉训练
from
xgboost
import
XGBClassifier
from
sklearn.model_selection
import
StratifiedKFold
from
sklearn.model_selection
import
cross_val_score
from
sklearn.metrics
import
accuracy_score
from
matplotlib
import
pyplot
param
=
{
'max_depth'
:
2
,
'eta'
:
1
,
'silent'
:
0
,
'objective'
:
'binary:logistic'
}
num_round
=
100
bst2
=
XGBClassifier(max_depth
=
2
, learning_rate
=
0.1
,n_estimators
=
num_round, silent
=
True
, objective
=
'binary:logistic'
)
bst2.fit(f_train, l_train)
kfold
=
StratifiedKFold(n_splits
=
10
, random_state
=
7
)
results
=
cross_val_score(bst2, f_train, l_train, cv
=
kfold)
#对数据进行十折交叉验证--9份训练,一份测试
print
(results)
print
(
"CV Accuracy: %.2f%% (%.2f%%)"
%
(results.mean()
*
100
, results.std()
*
100
))
from
xgboost
import
plot_importance
#显示特征重要性
plot_importance(bst2)
#打印重要程度结果。
pyplot.show()
|
使用GridSearchCV进行网格搜索 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
#使用sklearn中提供的网格搜索进行测试--找出最好参数,并作为默认训练参数
from
xgboost
import
XGBClassifier
from
sklearn.model_selection
import
GridSearchCV
from
sklearn.metrics
import
accuracy_score
from
matplotlib
import
pyplot
params
=
{
'max_depth'
:
2
,
'eta'
:
0.1
,
'silent'
:
0
,
'objective'
:
'binary:logistic'
}
bst
=
XGBClassifier(max_depth
=
2
, learning_rate
=
0.1
, silent
=
True
, objective
=
'binary:logistic'
)
param_test
=
{
'n_estimators'
:
range
(
1
,
51
,
1
)
}
clf
=
GridSearchCV(estimator
=
bst, param_grid
=
param_test, scoring
=
'accuracy'
, cv
=
5
)
# 5折交叉验证
clf.fit(f_train, l_train)
#默认使用最优的参数
preds
=
clf.predict(f_test)
test_accuracy
=
accuracy_score(l_test, preds)
print
(
"Test Accuracy of gridsearchcv: %.2f%%"
%
(test_accuracy
*
100.0
))
clf.cv_results_, clf.best_params_, clf.best_score_
|
3.早停止调参–early_stopping_rounds(查看的是损失是否变化) 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
#进行提早停止的单独实例
import
xgboost as xgb
from
xgboost
import
XGBClassifier
from
sklearn.metrics
import
accuracy_score
from
matplotlib
import
pyplot
param
=
{
'max_depth'
:
2
,
'eta'
:
1
,
'silent'
:
0
,
'objective'
:
'binary:logistic'
}
num_round
=
100
bst
=
XGBClassifier(max_depth
=
2
, learning_rate
=
0.1
, n_estimators
=
num_round, silent
=
True
, objective
=
'binary:logistic'
)
eval_set
=
[(f_test, l_test)]
bst.fit(f_train, l_train, early_stopping_rounds
=
10
, eval_metric
=
"error"
,eval_set
=
eval_set, verbose
=
True
)
#early_stopping_rounds--当多少次的效果差不多时停止 eval_set--用于显示损失率的数据 verbose--显示错误率的变化过程
# make prediction
preds
=
bst.predict(f_test)
test_accuracy
=
accuracy_score(l_test, preds)
print
(
"Test Accuracy: %.2f%%"
%
(test_accuracy
*
100.0
))
|
4.多数据观察训练损失 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
#多参数顺
import
xgboost as xgb
from
xgboost
import
XGBClassifier
from
sklearn.metrics
import
accuracy_score
from
matplotlib
import
pyplot
num_round
=
100
bst
=
XGBClassifier(max_depth
=
2
, learning_rate
=
0.1
, n_estimators
=
num_round, silent
=
True
, objective
=
'binary:logistic'
)
eval_set
=
[(f_train, l_train), (f_test, l_test)]
bst.fit(f_train, l_train, eval_metric
=
[
"error"
,
"logloss"
], eval_set
=
eval_set, verbose
=
True
)
# make prediction
preds
=
bst.predict(f_test)
test_accuracy
=
accuracy_score(l_test, preds)
print
(
"Test Accuracy: %.2f%%"
%
(test_accuracy
*
100.0
))
|
5.模型保存与读取 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
#模型保存
bst.save_model(
'demo.model'
)
#模型读取与预测
modelfile
=
'demo.model'
# 1
bst
=
xgb.Booster({
'nthread'
:
8
}, model_file
=
modelfile)
# 2
f_test1
=
xgb.DMatrix(f_test)
#尽量使用xgboost的自己的数据矩阵
ypred1
=
bst.predict(f_test1)
train_predictions
=
[
round
(value)
for
value
in
ypred1]
test_accuracy1
=
accuracy_score(l_test, train_predictions)
print
(
"Test Accuracy: %.2f%%"
%
(test_accuracy1
*
100.0
))
|
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我.
原文链接:https://blog.csdn.net/hot7732788/article/details/90903152 。
最后此篇关于python机器学习库xgboost的使用的文章就讲到这里了,如果你想了解更多关于python机器学习库xgboost的使用的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
Java 库和 android 库有什么区别,各自有什么优点/缺点? 最佳答案 您可以在 Android 应用程序中包含标准 Java .jar 文件库。它们在 .apk 构建时被翻译成 Dalvik
所以,我现在的代码就像从 Java 层加载库(比如 liba.so),并在内部 liba.so 加载 libb.so。因此,如果我必须将所有库打包到 APK 中并将其安装在没有 root 访问权限的设
我想在我的系统中设置 LEDA 库。 我已经从以下链接下载了 LEDA 库 http://www.algorithmic-solutions.info/free/d5.php Instruct
我想用 autoconf 创建一个共享库。但是,我希望共享库具有“.so”扩展名,而不是以“lib”开头。基本上,我想制作一个加载 dlopen 的插件。 .是否有捷径可寻? 当我尝试使用 autoc
我需要在 Apps 脚本应用程序上修改 PDF。为此,我想使用 JS 库:PDF-LIB 我的代码: eval(UrlFetchApp.fetch("https://unpkg.com/pdf-lib
我正在构建一个使用以下 Boost header 的程序(我使用的是 Microsoft Visual C++ 10), #include #include #include #include
当我通过 cygwin 在 hadoop 上运行此命令时: $bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+' 我
我已经通过 vcpgk 成功安装了一个 C++ 库,名为:lmdb:x64-windows 我还安装了lmdb通过 Cabal 安装的 Haskell 绑定(bind)包 在尝试测试 lmdb 包时:
我该如何解决这个问题? 我刚刚将 javacv jar 文件复制到我的项目 Lib 文件夹下,但出现了这个错误! 我可以找到这个thread来自谷歌,但不幸的是,由于我国的谷歌限制政策,该页面无法打开
我有一个 Android 库项目 FooLib。 FooLib 引用 Android Context 之类的东西,但不需要任何资源文件(res/ 中的东西)所以我目前将其打包为供我的应用使用的 JAR
我正在开发一个 Android 应用程序(使用 Android Studio),它能够通过手势识别算法了解您正在进行的 Activity 。对于我使用 nickgillian ithub 帐户上可用的
关于从 .NET Framework 项目中引用 .NET Standard 类库的问题有很多类似的问题,其中 netstandard 库中的 NuGet 包依赖项不会流向 netframework
我已经从互联网上下载了 jna-4.2.2.jar,现在想将这个 jar 导入到我的项目中。但是当我试图将这个 jar 导入我的项目时,出现以下错误。 [2016-06-20 09:35:01 - F
我正在尝试通过编译在 Mac 上安装 rsync 3.2.3。但是,我想安装所有功能。为此,它需要一些库,此处 ( https://download.samba.org/pub/rsync/INSTA
进入 Web 开发有点困难。过去 5 年我一直致力于 winforms 工作。所以我正在努力从一种切换到另一种。前段时间,我使用过 JavaScript,但现在还没有大量的 JavaScript 库
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
我正在寻找一个用Python编写的与logstash(ruby + java)类似的工具/库。 我的目标是: 从 syslog 中解析所有系统日志 解析应用程序特定日志(apache、django、m
就目前情况而言,这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放,visit
我花了几天时间试图寻找用于 JavaPOS 实现的 .jar 库,但我找不到任何可以工作的东西。我找到了很多像这样的文档:http://jpos.1045706.n5.nabble.com/file/
这个问题在这里已经有了答案: Merge multiple .so shared libraries (2 个答案) 关闭 9 年前。 我有我在代码中使用的第三方库的源代码和对象。该库附带有关如何使
我是一名优秀的程序员,十分优秀!