gpt4 book ai didi

performance - Spark独立: SparklyR : Performance issues

转载 作者:行者123 更新时间:2023-11-30 09:08:41 31 4
gpt4 key购买 nike

我正在尝试在 Spark 服务器上运行 SparklyR 库中的机器学习算法。

  • 1 个簇
  • 8 核
  • 24G内存
  • Ubuntu 16.04
  • 星火2.2
  • 独立配置
  • 1名师傅/2名 worker
  • 每个执行器的内存:4G
  • 8 个核心/工作线程
  • 4096 工作人员内存

在实践中,我在一个非常小的数据集 (72 x 100) 上测试 ml_decision_tree。我首先从 R 中的 CSV 文件(read.csv)在本地读取原始数据集(72 x 7350),执行 reshape ,然后在 Spark 中加载结果(df_fin)(我直接在 Spark 所在的集群上运行代码)已安装):

df_tbl <- sdf_copy_to(sc,df_fin)

我可以在服务器 UI 中看到我新创建的 RDD;其“内存中的大小”为 49.9 KB,“磁盘上的大小”为空。关于堆内存使用情况,我可以看到:49.9 KB(剩余 2004.6 MB)。

然后,我的应用程序卡在运行 ml_decision_tree 上。我的控制台中没有错误消息,我的应用程序状态为“正在运行”,并且以下内容仍然写入我的工作日志中:

17/08/23 15:35:32 INFO ShuffleBlockFetcherIterator: Getting 0 non-empty blocks out of 200 blocks
17/08/23 15:35:32 INFO ShuffleBlockFetcherIterator: Started 0 remote fetches in 0 ms
17/08/23 15:35:32 INFO ShuffleBlockFetcherIterator: Getting 26 non-empty blocks out of 200 blocks
17/08/23 15:35:32 INFO ShuffleBlockFetcherIterator: Started 1 remote fetches in 1 ms
17/08/23 15:35:32 INFO Executor: Finished task 1.0 in stage 494.0 (TID 39532). 3082 bytes result sent to driver
17/08/23 15:35:32 INFO Executor: Finished task 0.0 in stage 494.0 (TID 39531). 4073 bytes result sent to driver ...

然后 35 分钟后,在控制台:“*‘na.omit’调用没有删除任何行”这意味着事情正在向前发展..

所以它仍然在做一些事情,但我不明白是什么。当我在自己的计算机上的 RShiny 中本地运行相同的代码时,过程很快完成(3 或 4 分钟)。最后,我的过程在 +/- 50 分钟后结束,并出现以下错误:

Error: java.lang.OutOfMemoryError: GC overhead limit exceeded

我猜这个 Java 错误来自垃圾收集器,它使用了我的大部分 CPU 资源,没有大量可用内存......但是它来自哪里?

我想我在 Spark 理解中遗漏了一些东西;通常 Spark 应该加快进程,但就我而言这是最糟糕的。我无法想象以这种方式处理巨大的数据集。

此外,我想在 Spark 中加载我的原始数据帧(72 x 7350)以对其执行机器学习(当我的缓慢问题确实得到解决时......)。

最好的方法是什么?使用spark_read_csv?我不使用 HDFS。我认为我不会有足够的数据来利用 Hadoop 的能力(一些 Tb,而不是更多)。

当我尝试加载原始数据框时,出现此错误:

Caused by: org.codehaus.janino.JaninoRuntimeException: Constant pool for class org.apache.spark.sql.catalyst.expressions.GeneratedClass$SpecificUnsafeProjection has grown past JVM limit of 0xFFFF

我在 SPARK-18016 JIRA 上看到比

"We fixed a problem for the large number (e.g. 4000) of columns. However, we know that we have not solved a problem for the very large number (e.g. 12000) of columns."

我不太明白。 Spark 是为大数据而设计的,为什么它会失败(在我的例子中)7350 colmuns ?

有人可以指导我解决这个问题吗?它来 self 的设置吗?我应该添加更多 worker 吗?

非常感谢!

最佳答案

I do not really understand. Spark has been designed for Big Data, why should it fail with (in my case) 7350 colmuns ?

并非所有“大数据”都是平等的,并且根据数据的形状(宽、长、两者)做出不同的设计选择。大多数时候系统都关注又长又薄的数据集。 Spark 就是这种情况。

这里的问题不是数据量而是优化器的复杂性。在 Spark ML 中,这不是一个大问题,因为 Spark 使用 Vector 类型来组合功能,如果这还不够,则始终可以使用低级 API。 sparklyr 然而,不幸地决定扩展转换后的功能 - 这是无法正常工作的。

72 x 7350

使用 Spark 处理这样的数据是没有意义的。如果你可以运行:

df_tbl <- sdf_copy_to(sc,df_fin)

这意味着数据适合内存,不需要分布式处理。

关于performance - Spark独立: SparklyR : Performance issues,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45841895/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com