gpt4 book ai didi

shuffle - 使用最新spark版本时如何设置spark.sql.shuffle.partitions

转载 作者:行者123 更新时间:2023-12-01 08:49:23 29 4
gpt4 key购买 nike

我想重置 pyspark 代码中的 spark.sql.shuffle.partitions 配置,因为我需要加入两个大表。但是以下代码在最新的spark版本中不起作用,错误说“xxx中没有方法“setConf””

#!/usr/bin/python
# -*- coding: utf-8 -*-
import sys
import pyspark
from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
sc = SparkContext('local')
spark = SparkSession(sc)

spark.sparkContext.setConf("spark.sql.shuffle.partitions", "1000")
spark.sparkContext.setConf("spark.default.parallelism", "1000")

# or using the follow, neither is working
spark.setConf("spark.sql.shuffle.partitions", "1000")
spark.setConf("spark.default.parallelism", "1000")

我现在想知道如何重置“spark.sql.shuffle.partitions”。

最佳答案

SparkSession 提供了一个 RuntimeConfig 接口(interface)来设置和获取 Spark 相关参数。你的问题的答案是:

spark.conf.set("spark.sql.shuffle.partitions", 1000)

引用: https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.RuntimeConfig

我错过了你的问题是关于 pyspark 的。 Pyspark 有一个类似的界面 spark.conf .
引用: https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=sparksession#pyspark.sql.SparkSession.conf

关于shuffle - 使用最新spark版本时如何设置spark.sql.shuffle.partitions,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46510881/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com