python机器学习库xgboost的使用-6ren

python机器学习库xgboost的使用

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章python机器学习库xgboost的使用由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

1.数据读取。

利用原生xgboost库读取libsvm数据。

 
    ? 
   
         import 
         xgboost as xgb 
        
         data  
         = 
         xgb.DMatrix(libsvm文件)

使用sklearn读取libsvm数据。

 
    ? 
   
         from 
         sklearn.datasets  
         import 
         load_svmlight_file 
        
         X_train,y_train  
         = 
         load_svmlight_file(libsvm文件)

使用pandas读取完数据后在转化为标准形式。

2.模型训练过程。

1.未调参基线模型。

使用xgboost原生库进行训练。

 
    ? 
   
 
     
       
       
         import 
         xgboost as xgb 
        
 
         from 
         sklearn.metrics  
         import 
         accuracy_score 
        

            
        
 
         dtrain  
         = 
         xgb.DMatrix(f_train, label  
         = 
         l_train) 
        
 
         dtest  
         = 
         xgb.DMatrix(f_test, label  
         = 
         l_test) 
        
 
         param  
         = 
         { 
         'max_depth' 
         : 
         2 
         ,  
         'eta' 
         : 
         1 
         ,  
         'silent' 
         : 
         0 
         ,  
         'objective' 
         : 
         'binary:logistic' 
         } 
        
 
         num_round  
         = 
         2 
        
 
         bst  
         = 
         xgb.train(param, dtrain, num_round) 
        
 
         train_preds  
         = 
         bst.predict(dtrain) 
        
 
         train_predictions  
         = 
         [ 
         round 
         (value)  
         for 
         value  
         in 
         train_preds]  
         #进行四舍五入的操作--变成0.1(算是设定阈值的符号函数) 
        
 
         train_accuracy  
         = 
         accuracy_score(l_train, train_predictions)  
         #使用sklearn进行比较正确率 
        
 
         print 
         ( 
         "Train Accuary: %.2f%%" 
         % 
         (train_accuracy  
         * 
         100.0 
         )) 
        

            
        
 
         from 
         xgboost  
         import 
         plot_importance  
         #显示特征重要性 
        
 
         plot_importance(bst) 
         #打印重要程度结果。 
        
 
         pyplot.show() 
        
 
     
 
   

使用XGBClassifier进行训练。

 
    ? 
   
         # 未设定早停止， 未进行矩阵变换 
        
         from 
         xgboost  
         import 
         XGBClassifier 
        
         from 
         sklearn.datasets  
         import 
         load_svmlight_file  
         #用于直接读取svmlight文件形式， 否则就需要使用xgboost.DMatrix(文件名)来读取这种格式的文件 
        
         from 
         sklearn.metrics  
         import 
         accuracy_score 
        
         from 
         matplotlib  
         import 
         pyplot 
        
         num_round  
         = 
         100 
        
         bst1  
         = 
         XGBClassifier(max_depth 
         = 
         2 
         , learning_rate 
         = 
         1 
         , n_estimators 
         = 
         num_round,  
         #弱分类树太少的话取不到更多的特征重要性 
        
         silent 
         = 
         True 
         , objective 
         = 
         'binary:logistic' 
         ) 
        
         bst1.fit(f_train, l_train) 
        
         train_preds  
         = 
         bst1.predict(f_train) 
        
         train_accuracy  
         = 
         accuracy_score(l_train, train_preds) 
        
         print 
         ( 
         "Train Accuary: %.2f%%" 
         % 
         (train_accuracy  
         * 
         100.0 
         )) 
        
         preds  
         = 
         bst1.predict(f_test) 
        
         test_accuracy  
         = 
         accuracy_score(l_test, preds) 
        
         print 
         ( 
         "Test Accuracy: %.2f%%" 
         % 
         (test_accuracy  
         * 
         100.0 
         )) 
        
         from 
         xgboost  
         import 
         plot_importance  
         #显示特征重要性 
        
         plot_importance(bst1) 
         #打印重要程度结果。 
        
         pyplot.show()

2.两种交叉验证方式。

使用cross_val_score进行交叉验证。

 
    ? 
   
 
     
       
       
         #利用model_selection进行交叉训练 
        
 
         from 
         xgboost  
         import 
         XGBClassifier 
        
 
         from 
         sklearn.model_selection  
         import 
         StratifiedKFold 
        
 
         from 
         sklearn.model_selection  
         import 
         cross_val_score 
        
 
         from 
         sklearn.metrics  
         import 
         accuracy_score 
        
 
         from 
         matplotlib  
         import 
         pyplot 
        

            
        
 
         param  
         = 
         { 
         'max_depth' 
         : 
         2 
         ,  
         'eta' 
         : 
         1 
         ,  
         'silent' 
         : 
         0 
         ,  
         'objective' 
         : 
         'binary:logistic' 
         } 
        
 
         num_round  
         = 
         100 
        
 
         bst2  
         = 
         XGBClassifier(max_depth 
         = 
         2 
         , learning_rate 
         = 
         0.1 
         ,n_estimators 
         = 
         num_round, silent 
         = 
         True 
         , objective 
         = 
         'binary:logistic' 
         ) 
        
 
         bst2.fit(f_train, l_train) 
        
 
         kfold  
         = 
         StratifiedKFold(n_splits 
         = 
         10 
         , random_state 
         = 
         7 
         ) 
        
 
         results  
         = 
         cross_val_score(bst2, f_train, l_train, cv 
         = 
         kfold) 
         #对数据进行十折交叉验证--9份训练，一份测试 
        
 
         print 
         (results) 
        
 
         print 
         ( 
         "CV Accuracy: %.2f%% (%.2f%%)" 
         % 
         (results.mean() 
         * 
         100 
         , results.std() 
         * 
         100 
         )) 
        

            
        
 
         from 
         xgboost  
         import 
         plot_importance  
         #显示特征重要性 
        
 
         plot_importance(bst2) 
         #打印重要程度结果。 
        
 
         pyplot.show() 
        
 
     
 
   

python机器学习库xgboost的使用

使用GridSearchCV进行网格搜索。

 
    ? 
   
 
     
       
       
         #使用sklearn中提供的网格搜索进行测试--找出最好参数，并作为默认训练参数 
        
 
         from 
         xgboost  
         import 
         XGBClassifier 
        
 
         from 
         sklearn.model_selection  
         import 
         GridSearchCV 
        
 
         from 
         sklearn.metrics  
         import 
         accuracy_score 
        
 
         from 
         matplotlib  
         import 
         pyplot 
        

            
        
 
         params  
         = 
         { 
         'max_depth' 
         : 
         2 
         ,  
         'eta' 
         : 
         0.1 
         ,  
         'silent' 
         : 
         0 
         ,  
         'objective' 
         : 
         'binary:logistic' 
         } 
        
 
         bst  
         = 
         XGBClassifier(max_depth 
         = 
         2 
         , learning_rate 
         = 
         0.1 
         , silent 
         = 
         True 
         , objective 
         = 
         'binary:logistic' 
         ) 
        
 
         param_test  
         = 
         { 
        
 
           
         'n_estimators' 
         :  
         range 
         ( 
         1 
         ,  
         51 
         ,  
         1 
         ) 
        
 
         } 
        
 
         clf  
         = 
         GridSearchCV(estimator  
         = 
         bst, param_grid  
         = 
         param_test, scoring 
         = 
         'accuracy' 
         , cv 
         = 
         5 
         ) 
         # 5折交叉验证 
        
 
         clf.fit(f_train, l_train)  
         #默认使用最优的参数 
        

            
        

            
        
 
         preds  
         = 
         clf.predict(f_test) 
        

            
        
 
         test_accuracy  
         = 
         accuracy_score(l_test, preds) 
        
 
         print 
         ( 
         "Test Accuracy of gridsearchcv: %.2f%%" 
         % 
         (test_accuracy  
         * 
         100.0 
         )) 
        

            
        
 
         clf.cv_results_, clf.best_params_, clf.best_score_ 
        
 
     
 
   

3.早停止调参–early_stopping_rounds（查看的是损失是否变化）。

 
    ? 
   
 
     
       
       
         #进行提早停止的单独实例 
        
 
         import 
         xgboost as xgb 
        
 
         from 
         xgboost  
         import 
         XGBClassifier 
        
 
         from 
         sklearn.metrics  
         import 
         accuracy_score 
        
 
         from 
         matplotlib  
         import 
         pyplot 
        

            
        
 
         param  
         = 
         { 
         'max_depth' 
         : 
         2 
         ,  
         'eta' 
         : 
         1 
         ,  
         'silent' 
         : 
         0 
         ,  
         'objective' 
         : 
         'binary:logistic' 
         } 
        
 
         num_round  
         = 
         100 
        
 
         bst  
         = 
         XGBClassifier(max_depth 
         = 
         2 
         , learning_rate 
         = 
         0.1 
         , n_estimators 
         = 
         num_round, silent 
         = 
         True 
         , objective 
         = 
         'binary:logistic' 
         ) 
        
 
         eval_set  
         = 
         [(f_test, l_test)] 
        
 
         bst.fit(f_train, l_train, early_stopping_rounds 
         = 
         10 
         , eval_metric 
         = 
         "error" 
         ,eval_set 
         = 
         eval_set, verbose 
         = 
         True 
         )  
         #early_stopping_rounds--当多少次的效果差不多时停止  eval_set--用于显示损失率的数据 verbose--显示错误率的变化过程 
        

            
        
 
         # make prediction 
        
 
         preds  
         = 
         bst.predict(f_test) 
        

            
        
 
         test_accuracy  
         = 
         accuracy_score(l_test, preds) 
        
 
         print 
         ( 
         "Test Accuracy: %.2f%%" 
         % 
         (test_accuracy  
         * 
         100.0 
         )) 
        
 
     
 
   

4.多数据观察训练损失。

 
    ? 
   
 
     
       
       
         #多参数顺 
        
 
         import 
         xgboost as xgb 
        
 
         from 
         xgboost  
         import 
         XGBClassifier 
        
 
         from 
         sklearn.metrics  
         import 
         accuracy_score 
        
 
         from 
         matplotlib  
         import 
         pyplot 
        

            
        
 
         num_round  
         = 
         100 
        
 
         bst  
         = 
         XGBClassifier(max_depth 
         = 
         2 
         , learning_rate 
         = 
         0.1 
         , n_estimators 
         = 
         num_round, silent 
         = 
         True 
         , objective 
         = 
         'binary:logistic' 
         ) 
        
 
         eval_set  
         = 
         [(f_train, l_train), (f_test, l_test)] 
        
 
         bst.fit(f_train, l_train, eval_metric 
         = 
         [ 
         "error" 
         ,  
         "logloss" 
         ], eval_set 
         = 
         eval_set, verbose 
         = 
         True 
         ) 
        

            
        
 
         # make prediction 
        
 
         preds  
         = 
         bst.predict(f_test) 
        
 
         test_accuracy  
         = 
         accuracy_score(l_test, preds) 
        
 
         print 
         ( 
         "Test Accuracy: %.2f%%" 
         % 
         (test_accuracy  
         * 
         100.0 
         )) 
        
 
     
 
   

python机器学习库xgboost的使用

5.模型保存与读取。

 
    ? 
   
         #模型保存 
        
         bst.save_model( 
         'demo.model' 
         ) 
        
         #模型读取与预测 
        
         modelfile  
         = 
         'demo.model' 
        
         # 1 
        
         bst  
         = 
         xgb.Booster({ 
         'nthread' 
         : 
         8 
         }, model_file  
         = 
         modelfile) 
        
         # 2 
        
         f_test1  
         = 
         xgb.DMatrix(f_test)  
         #尽量使用xgboost的自己的数据矩阵 
        
         ypred1  
         = 
         bst.predict(f_test1) 
        
         train_predictions  
         = 
         [ 
         round 
         (value)  
         for 
         value  
         in 
         ypred1] 
        
         test_accuracy1  
         = 
         accuracy_score(l_test, train_predictions) 
        
         print 
         ( 
         "Test Accuracy: %.2f%%" 
         % 
         (test_accuracy1  
         * 
         100.0 
         ))

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我.

原文链接：https://blog.csdn.net/hot7732788/article/details/90903152 。

最后此篇关于python机器学习库xgboost的使用的文章就讲到这里了,如果你想了解更多关于python机器学习库xgboost的使用的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： tensorflow-gpu安装的常见问题及解决方案

文章推荐： python 爬取马蜂窝景点翻页文字评论的实现

文章推荐：使用tensorflow DataSet实现高效加载变长文本输入

文章推荐：浅谈tensorflow中Dataset图片的批量读取及维度的操作详解

java 库 vs android 库
Java 库和 android 库有什么区别，各自有什么优点/缺点？最佳答案您可以在 Android 应用程序中包含标准 Java .jar 文件库。它们在 .apk 构建时被翻译成 Dalvik
java - 如何从另一个 native 库 (.so) 加载 native 库 (.so)？
所以，我现在的代码就像从 Java 层加载库(比如 liba.so)，并在内部 liba.so 加载 libb.so。因此，如果我必须将所有库打包到 APK 中并将其安装在没有 root 访问权限的设
c++ - LEDA 库(C++ 库)设置 linux
我想在我的系统中设置 LEDA 库。我已经从以下链接下载了 LEDA 库 http://www.algorithmic-solutions.info/free/d5.php Instruct
shared - 如何使用 autoconf 制作 .so 库，而不是 .la 库？
我想用 autoconf 创建一个共享库。但是，我希望共享库具有“.so”扩展名，而不是以“lib”开头。基本上，我想制作一个加载 dlopen 的插件。 .是否有捷径可寻？当我尝试使用 autoc
pdf - 如何在 Apps 脚本中使用外部 Javascript 库(PDF 库)？
我需要在 Apps 脚本应用程序上修改 PDF。为此，我想使用 JS 库:PDF-LIB 我的代码: eval(UrlFetchApp.fetch("https://unpkg.com/pdf-lib
c++ - 可序列化的 Boost 库 header 和仅 header 库
我正在构建一个使用以下 Boost header 的程序(我使用的是 Microsoft Visual C++ 10)， #include #include #include #include
java - 无法为您的平台加载 native-hadoop 库...未加载 Snappy native 库
当我通过 cygwin 在 hadoop 上运行此命令时: $bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+' 我
c++ - GHCi 无法在 Windows 上加载 .dll 库(C++ 库)
我已经通过 vcpgk 成功安装了一个 C++ 库，名为:lmdb:x64-windows 我还安装了lmdb通过 Cabal 安装的 Haskell 绑定(bind)包在尝试测试 lmdb 包时:
java - 库 'javacv-android-arm.jar' 包含不会在设备上运行的 native 库
我该如何解决这个问题？我刚刚将 javacv jar 文件复制到我的项目 Lib 文件夹下，但出现了这个错误! 我可以找到这个thread来自谷歌，但不幸的是，由于我国的谷歌限制政策，该页面无法打开
android - Android 库 JAR 可以依赖于 Android 库 AAR 吗？
我有一个 Android 库项目 FooLib。 FooLib 引用 Android Context 之类的东西，但不需要任何资源文件(res/ 中的东西)所以我目前将其打包为供我的应用使用的 JAR
java - GRT 库，以及如何在 Android Studio 上导入 native 库
我正在开发一个 Android 应用程序(使用 Android Studio)，它能够通过手势识别算法了解您正在进行的 Activity 。对于我使用 nickgillian ithub 帐户上可用的
c# - NetFramework 应用程序在同一解决方案中引用 NetFramework 库，在另一个解决方案中引用 NetStandard 库。 : could not load file or assembly
关于从 .NET Framework 项目中引用 .NET Standard 类库的问题有很多类似的问题，其中 netstandard 库中的 NuGet 包依赖项不会流向 netframework
java - 库 'jna-4.2.2.jar' 包含不会在 Android 设备上运行的 native 库
我已经从互联网上下载了 jna-4.2.2.jar，现在想将这个 jar 导入到我的项目中。但是当我试图将这个 jar 导入我的项目时，出现以下错误。 [2016-06-20 09:35:01 - F
macos - 如何在 Mac 上完整(具有所有功能 - ACL 支持/Xattr 支持/xxhash 库/zstd 库)安装(编译)rsync v3.2.3？
我正在尝试通过编译在 Mac 上安装 rsync 3.2.3。但是，我想安装所有功能。为此，它需要一些库，此处 ( https://download.samba.org/pub/rsync/INSTA
JavaScript 库
进入 Web 开发有点困难。过去 5 年我一直致力于 winforms 工作。所以我正在努力从一种切换到另一种。前段时间，我使用过 JavaScript，但现在还没有大量的 JavaScript 库
模仿matlab功能的C++库
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
Python日志分析工具/库
我正在寻找一个用Python编写的与logstash(ruby + java)类似的工具/库。我的目标是: 从 syslog 中解析所有系统日志解析应用程序特定日志(apache、django、m
JavaScript 库
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
JavaPOS 库
我花了几天时间试图寻找用于 JavaPOS 实现的 .jar 库，但我找不到任何可以工作的东西。我找到了很多像这样的文档:http://jpos.1045706.n5.nabble.com/file/
合并两个共享 (.so) 库
这个问题在这里已经有了答案: Merge multiple .so shared libraries (2 个答案) 关闭 9 年前。我有我在代码中使用的第三方库的源代码和对象。该库附带有关如何使

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python机器学习库xgboost的使用