amazon-web-services - Apache Spark Gradient Boosted Tree 训练运行性能缓慢

转载作者：行者123 更新时间：2023-11-30 08:22:53

24

4

我正在尝试 Gradient Boosted Trees从Spark 1.4的ML库学习算法。我正在解决一个二元分类问题，其中我的输入是 ~50,000 个样本和 ~500,000 个特征。我的目标是以人类可读的格式输出生成的 GBT 集合的定义。到目前为止，我的经验是，对于我的问题大小，向集群添加更多资源似乎不会对运行时间产生影响。 10 次迭代的训练运行似乎大约需要 13 小时。这是 Not Acceptable ，因为我希望进行 100-300 次迭代运行，并且执行时间似乎随着迭代次数的增加而激增。

我的 Spark 应用程序

这不是确切的代码，但可以简化为:

SparkConf sc = new SparkConf().setAppName("GBT Trainer")
            // unlimited max result size for intermediate Map-Reduce ops.
            // Having no limit is probably bad, but I've not had time to find
            // a tighter upper bound and the default value wasn't sufficient.
            .set("spark.driver.maxResultSize", "0");
JavaSparkContext jsc = new JavaSparkContext(sc)

// The input file is encoded in plain-text LIBSVM format ~59GB in size
<LabeledPoint> data = MLUtils.loadLibSVMFile(jsc.sc(), "s3://somebucket/somekey/plaintext_libsvm_file").toJavaRDD();

BoostingStrategy boostingStrategy = BoostingStrategy.defaultParams("Classification");
boostingStrategy.setNumIterations(10);
boostingStrategy.getTreeStrategy().setNumClasses(2);
boostingStrategy.getTreeStrategy().setMaxDepth(1);
Map<Integer, Integer> categoricalFeaturesInfo = new HashMap<Integer, Integer>();
boostingStrategy.treeStrategy().setCategoricalFeaturesInfo(categoricalFeaturesInfo);

GradientBoostedTreesModel model = GradientBoostedTrees.train(data, boostingStrategy);

// Somewhat-convoluted code below reads in Parquete-formatted output
// of the GBT model and writes it back out as json.
// There might be cleaner ways of achieving the same, but since output
// size is only a few KB I feel little guilt leaving it as is.

// serialize and output the GBT classifier model the only way that the library allows
String outputPath = "s3://somebucket/somekeyprefex";
model.save(jsc.sc(), outputPath + "/parquet");
// read in the parquet-formatted classifier output as a generic DataFrame object
SQLContext sqlContext = new SQLContext(jsc);
DataFrame outputDataFrame = sqlContext.read().parquet(outputPath + "/parquet"));    
// output DataFrame-formatted classifier model as json           
outputDataFrame.write().format("json").save(outputPath + "/json");

问题

我的 Spark 应用程序(或 GBT 学习算法本身)在该大小的输入上的性能瓶颈是什么？如何实现更大的执行并行度？

我仍然是 Spark 开发新手，如果有关于集群配置和执行分析的提示，我将不胜感激。

有关集群设置的更多详细信息

我在 r3.8xlarge 实例(32 个核心，每个 244GB RAM)的 AWS EMR 集群(emr-4.0.0，YARN 集群模式)上运行此应用程序。我使用如此大的实例是为了最大限度地提高资源分配的灵 active 。到目前为止，我已经尝试使用 1-3 个 r3.8xlarge 实例以及驱动程序和工作人员之间的各种资源分配方案。例如，对于包含 1 个 r3.8xlarge 实例的集群，我按如下方式提交应用程序:

aws emr add-steps --cluster-id $1 --steps Name=$2,\
Jar=s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,\
Args=[/usr/lib/spark/bin/spark-submit,--verbose,\
--deploy-mode,cluster,--master,yarn,\
--driver-memory,60G,\
--executor-memory,30G,\
--executor-cores,5,\
--num-executors,6,\
--class,GbtTrainer,\
"s3://somebucket/somekey/spark.jar"],\
ActionOnFailure=CONTINUE

对于 3 个 r3.8xlarge 实例的集群，我调整资源分配:

--driver-memory,80G,\
--executor-memory,35G,\
--executor-cores,5,\
--num-executors,18,\

我不清楚为每个执行者提供多少内存是有用的，但我觉得无论哪种情况我都很慷慨。浏览 Spark UI，我没有看到输入大小超过几 GB 的任务。在为驱动程序进程提供如此多的内存时，我会谨慎行事，以确保它不会因任何中间结果聚合操作而内存不足。

按照 Cloudera's How To Tune Your Spark Jobs series 中的建议，我尝试将每个执行器的核心数量保持在 5 个以内。 (根据他们的说法，超过 5 个核心往往会引入 HDFS IO 瓶颈)。我还要确保有足够的备用 RAM 和 CPU 用于主机操作系统和 Hadoop 服务。

到目前为止我的发现

我唯一的线索是 Spark UI 在执行尾部显示许多任务的调度延迟非常长。我还感觉 Spark UI 显示的阶段/任务时间线并没有考虑到完成作业所需的所有时间。我怀疑驱动程序应用程序在每次训练迭代结束时或在整个训练运行结束时卡住了执行某种冗长的操作。

我已经对 Spark 应用程序的调优进行了大量研究。大多数文章都会给出关于使用 RDD 操作的很好的建议，这些操作可以减少中间输入的大小或避免阶段之间的数据混洗。就我而言，我基本上使用的是“开箱即用”算法，该算法是由机器学习专家编写的，并且应该在这方面已经进行了很好的调整。我自己的将 GBT 模型输出到 S3 的代码应该只需要很短的时间即可运行。

最佳答案

我没有使用过 MLLibs GBT 实现，但我都使用过

LightGBM和 XGBoost成功地。我强烈建议您看看这些其他库。

一般来说，GBM 实现需要迭代地训练模型，因为它们在构建下一棵树时考虑到整个集成的损失。这使得 GBM 训练本质上存在瓶颈，并且不容易并行化(与可以轻松并行化的随机森林不同)。我希望它能在任务较少的情况下表现更好，但这可能不是您的全部问题。由于您有如此之多的特征(500K)，因此在训练期间计算直方图和分割点时，您将有非常高的开销。您应该减少拥有的特征数量，特别是因为它们比样本数量大得多，这会导致过度拟合。

至于调整集群:您希望最大限度地减少数据移动，从而减少执行程序并获得更多内存。每个 ec2 实例 1 个执行程序，核心数量设置为实例提供的任何数量。

您的数据足够小，可以容纳大约 2 个该大小的 EC2。假设您使用 double (8 字节)，则大小为 8 * 500000 * 50000 = 200 GB 尝试在数据帧上使用 .cache() 将其全部加载到 RAM 中。如果您对所有行执行操作(例如求和)，您应该强制加载它，并且可以测量 IO 花费的时间。一旦它进入内存并缓存任何其他操作，它就会更快。

关于amazon-web-services - Apache Spark Gradient Boosted Tree 训练运行性能缓慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32703002/

24

4

0

文章推荐： r - 在gbm多项式分布中，如何使用predict得到分类输出？

文章推荐： machine-learning - 线性代数在机器学习中的应用

文章推荐：敏捷:机器学习项目的用户故事？

文章推荐： machine-learning - 将用户反馈纳入 ML 模型

boost - boost boost::spirit::qi以使用STL容器
我正在尝试使用boost.spirit的qi库解析某些内容，而我遇到了一个问题。根据spirit docs，a >> b应该产生类型为tuple的东西。但这是boost::tuple(又名 fusio
boost - 在 CMake 中轻松使用 Boost，无需安装 Boost(Boost CMake 模块化)
似乎有/正在努力做到这一点，但到目前为止我看到的大多数资源要么已经过时(带有死链接)，要么几乎没有信息来实际构建一个小的工作样本(例如，依赖于boost program_options 以构建可执行文
boost - boost.log 是 Boost 的正式一部分吗？
我对 Boost.Log 的状态有点困惑。这是 Boost 的官方部分，还是尚未被接受？当我用谷歌搜索时，我看到一些帖子谈论它在 2010 年是如何被接受的，等等，但是当我查看最后一个 Boost 库
boost - boost::string_ref 和 boost::string_view 的区别
Boost 提供了两种不同的实现 string_view ，这将成为 C++17 的一部分: boost::string_ref在 utility/string_ref.hpp boost::stri
boost - Boost.Geometry是否足够成熟？
最近，我被一家GIS公司雇用来重写他们的旧地理信息库。所以我目前正在寻找一个好的计算几何库。我看过CGAL，这真是了不起，但是我的老板想要免费的东西。所以我现在正在检查Boost.Geometry。
boost - 在图中添加和删除现有边(BOOST)？
假设我有一个无向图 G。假设我添加以下内容 add_edge(1,2,G); add_edge(1,3,G); add_edge(0,2,G); 现在我再说一遍: add_edge(0,2,G); 我
boost - CMake 找到 Boost，但导入的目标不适用于 Boost 版本
我使用 CMake 来查找 Boost。找到了 Boost，但 CMake 出错了 Imported targets not available for Boost version 请参阅下面的完整错
boost - boost::MPL 和 boost::fusion 之间的区别
我是 boost::fusion 和 boost::mpl 库的新手。谁能告诉我这两个库之间的主要区别？到目前为止，我只使用 fusion::vector 和其他一些简单的东西。现在我想使用 fus
boost - boost phoenix什么时候有用？
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: What are the benefits of using Boost.Phoenix? 所以我开始阅读 boos
boost - 链接器错误 : Boost. Chrono 到 Boost.Timer
我正在尝试获得一个使用 Boost.Timer 的简单示例，用于一些秒表性能测量，但我不明白为什么我无法成功地将 Boost.Timer 链接到 Boost.Chrono。我使用以下简单脚本从源代码构
boost - C++ boost::shared_ptr & boost::weak_ptr & dynamic_cast
我有这样的东西: enum EFood{ eMeat, eFruit }; class Food{ }; class Meat: public Food{ void someM
boost - Boost::variant与无序映射
有人可以告诉我，我如何获得boost::Variant处理无序地图？ typedef boost::variant lut_value;unordered_map table; 我认为有一个用于boo
boost - boost 几何中的环和多边形有什么区别？
我对 Boost.Geometry 中的环和多边形感到困惑。在文档中，没有图形显示什么是环，什么是多边形。谁能画图解释两个概念的区别？最佳答案在 Boost.Geometry 中，多边形被定义
boost - boost::pool<>::malloc 和 boost::pool<>::ordered_malloc 有什么区别，什么时候应该使用 boost::pool<>::ordered_malloc？
我正在使用 boost.pool，但我不知道何时使用 boost::pool<>::malloc和 boost::pool<>::ordered_malloc ? 所以， boost::pool<>:
c++ - (Boost 库) - boost::container::flat_set with boost::fast_pool_allocator
我正在尝试通过 *boost::fast_pool_allocator* 使用 *boost::container::flat_set*。但是，我收到编译错误。非常感谢您的意见和建议。为了突出这个问题
c++ - boost::bind、boost::asio、boost::thread 和类
sau_timer::sau_timer(int secs, timerparam f) : strnd(io), t(io, boost::posix_time::seconds(secs)
boost - Boost.Graph 中的 boost::out_edges( v, g ) 有什么作用？
我无法理解此功能的文档，我已多次看到以下内容 tie (ei,ei_end) = out_edges(*(vi+a),g); **g**::out_edge_iterator ei, ei_end;
boost-propertytree - 我们如何在另一个 boost ptree 中插入一个 boost ptree 作为节点？
我想在 C++ 中序列化分层数据结构。我正在处理的项目使用 boost，所以我使用 boost::property_tree::ptree 作为我的数据节点结构。我们有像 Person 这样的高级结
c++ - boost::exception_detail::clone_impl>
我需要一些帮助来解决这个异常，我正在实现一个 NPAPI 插件，以便能够使用来自浏览器扩展的本地套接字，为此我正在使用 Firebreath 框架。对于套接字和连接，我使用带有异步调用的 Boost
c++ - boost::bind、boost::function 和 boost::factory 的问题
我尝试将 boost::bind 与 boost::factory 结合使用但没有成功我有这个类 Zambas 有 4 个参数(2 个字符串和 2 个整数)和 class Zambas { publ

首页

博学

6Ren·AI

商城

amazon-web-services - Apache Spark Gradient Boosted Tree 训练运行性能缓慢

我的 Spark 应用程序

问题

有关集群设置的更多详细信息

到目前为止我的发现