gpt4 book ai didi

apache-spark - Spark 决策树拟合在 1 个任务中运行

转载 作者:行者123 更新时间:2023-11-30 09:54:06 24 4
gpt4 key购买 nike

我正在尝试使用在 Amazon EMR 的集群中运行的 Apache Spark 来“训练”一个 DecisionTreeClassifier 。尽管我可以看到添加了大约 50 个执行程序,并且这些功能是通过使用 SparkSQL 查询 Postgres 数据库创建的并存储在 DataFrame 中。即使数据集不是那么大(10.000 个数据库条目,每行有几百个字节),DesisionTree fit 方法也需要几个小时。

我可以看到只有一项任务,所以我认为这就是它如此缓慢的原因。
我应该在哪里查找它在一项任务中运行的原因?这是我检索数据的方式吗?如果这有点模糊,我很抱歉,但我不知道检索数据的代码是否相关,或者它是算法中的参数(尽管我在网上没有找到任何内容),还是只是 Spark 调优?我将不胜感激任何指示!

提前致谢。

最佳答案

Spark 依赖于数据局部性。似乎所有数据都位于一个地方。因此 Spark 使用单个分区来处理它。您可以应用重新分区或指定加载时要使用的分区数量。我还会研究决策树 Api,看看是否可以专门为其设置分区数。基本上,分区是并行度的级别。

关于apache-spark - Spark 决策树拟合在 1 个任务中运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38165616/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com