gpt4 book ai didi

hadoop - Spark 需要 2 秒才能数到 10 ...?

转载 作者:可可西里 更新时间:2023-11-01 14:19:33 26 4
gpt4 key购买 nike

我们刚刚试用 Spark,事实证明它确实很慢。为了说明我的意思,我在下面给出了一个示例——Spark 花费了将近 2 秒的时间从 HDFS 加载一个包含 10 行的文本文件,并计算行数。我的问题:

  1. 这是预期的吗?您的平台需要多长时间?
  2. 有什么可能的想法吗?目前我在双节点 Hadoop 集群(均为 8 核,64G RAM)上使用 Spark 1.3。我对 Hadoop 和 Spark 还很陌生,所以除了 Ambari/HDP 默认值之外,我几乎没有做任何配置。

最初,我在一亿行上进行测试 - Spark 只需要大约 10 分钟来计算它。

示例:

创建包含 10 个数字的文本文件,并将其加载到 hadoop 中:

for i in {1..10}; do echo $1 >> numbers.txt; done
hadoop fs -put numbers.txt numbers.txt

启动pyspark(大约需要20秒...):

pyspark --master yarn-client --executor-memory 4G --executor-cores 1 --driver-memory 4G --conf spark.python.worker.memory=4G

从HDFS加载文件并计数:

sc.textFile('numbers.txt').count()

根据反馈,Spark 大约需要 1.6 秒才能完成。即使配置糟糕,我也不希望它花那么长时间。

最佳答案

这绝对太慢了(在我的本地机器上是 0.3 秒),即使对于错误的 spark 配置也是如此(而且通常默认的 spark 配置适用于它的大部分正常使用)。也许您应该仔细检查您的 HDFS 配置或网络相关配置。

关于hadoop - Spark 需要 2 秒才能数到 10 ...?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33886325/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com