gpt4 book ai didi

python-3.x - SparkSession 在本地独立集群上花费的时间太长

转载 作者:行者123 更新时间:2023-12-05 07:40:31 25 4
gpt4 key购买 nike

我对大数据还很陌生,目前正在学习 Apache Spark。我在同一台机器上创建了一个独立集群,其中包含一个主服务器和一个从服务器。 SPARK_WORKER_MEMORY 设置为“1g”,SPARK_LOCAL_IP 指向我的 ip 地址。所以,我写了一段 python 代码来简单地创建一个 SparkSession:

from pyspark.sql import SparkSession
from time import time

def main( ):
start_time = time( )
sparkSession = ( SparkSession.builder
.master( "spark://nilson:7077" )
.appName( "pyclient" )
.config( "spark.executor.memory", "512m" )
.getOrCreate( ) )

elapsed_time = time( ) - start_time

print ("\n\nelapsed time: %.4gs" %elapsed_time)
return

if __name__ == '__main__':
main( )

如您所见,它花费了将近 6 秒的时间 here

所以,我的问题是:

真的需要这个时间还是我的环境变量中缺少某些东西?

我还尝试读取一个仅包含两行数据的简单 json 文件。打开它并打印其内容的整个过程花费了将近 13 秒。

谢谢。

最佳答案

Spark 是用于大规模数据处理的引擎,它会在启动您因记录器配置而看不到的作业之前执行许多小的内务处理工作。无论数据大小如何,它都会运行初始设置步骤。

您可以通过将记录器级别更改为:ALL、DEBUG、ERROR、INFO、OFF、WARN 来开始浏览这些内部日志

例如sc.setLogLevel("ERROR") #default

关于python-3.x - SparkSession 在本地独立集群上花费的时间太长,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46118869/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com