gpt4 book ai didi

apache-spark - 如果有很多字段,如何让 pyspark 显示整个查询计划而不是...?

转载 作者:行者123 更新时间:2023-12-02 02:10:46 30 4
gpt4 key购买 nike

Spark v2.4

spark = SparkSession \
.builder \
.master('local[15]') \
.appName('Notebook') \
.config('spark.sql.debug.maxToStringFields', 2000) \
.config('spark.sql.maxPlanStringLength', 2000) \
.config('spark.debug.maxToStringFields', 2000) \
.getOrCreate()

df = spark.createDataFrame(spark.range(1000).rdd.map(lambda x: range(100)))
df.repartition(1).write.mode('overwrite').parquet('test.parquet')

df = spark.read.parquet('test.parquet')
df.select('*').explain()

== Physical Plan ==

ReadSchema: struct<_1:bigint,_2:bigint,_3:bigint,_4:bigint,_5:bigint,_6:bigint,_7:bigint,_8:bigint,_9:bigint,...

注意:spark.debug.maxToStringFields 通过扩展 FileScan parquet [_1#302L,_2#303L,... 76 个更多字段] 有所帮助,但不是架构部分。

注2:我不仅对ReadSchema感兴趣,还对PartitionFiltersPushedFilters...感兴趣,它们都被截断了。

更新

Spark 3.0 引入了 explain('formatted'),它以不同的方式布局信息并且不应用截断。

最佳答案

Spark 3.0 引入了 explain('formatted'),它以不同的方式布局信息并且不应用截断。

关于apache-spark - 如果有很多字段,如何让 pyspark 显示整个查询计划而不是...?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55262442/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com