python - 如何在jupyter PySpark session 中更改SparkContext属性spark.sql.pivotMaxValues-6ren

python - 如何在jupyter PySpark session 中更改SparkContext属性spark.sql.pivotMaxValues

转载作者：行者123 更新时间：2023-12-02 04:44:03

30

4

问:如何在 jupyter PySpark session 中更改 SparkContext 属性 spark.sql.pivotMaxValues

我进行了以下代码更改以增加spark.sql.pivotMaxValues。遗憾的是，在重新启动 jupyter 并再次运行代码后，它对产生的错误没有任何影响。

from pyspark import SparkConf, SparkContext
from pyspark.mllib.linalg import Vectors
from pyspark.mllib.linalg.distributed import RowMatrix
import numpy as np
try:
    #conf = SparkConf().setMaster('local').setAppName('autoencoder_recommender_wide_user_record_maker') # original
    #conf = SparkConf().setMaster('local').setAppName('autoencoder_recommender_wide_user_record_maker').set("spark.sql.pivotMaxValues", "99999")
    conf = SparkConf().setMaster('local').setAppName('autoencoder_recommender_wide_user_record_maker').set("spark.sql.pivotMaxValues", 99999)
    sc = SparkContext(conf=conf)
except:
    print("Variables sc and conf are now defined. Everything is OK and ready to run.")

<...(其他代码)...>

df = sess.read.csv(in_filename, header=False, mode="DROPMALFORMED", schema=csv_schema)
ct = df.crosstab('username', 'itemname')

在我的交叉表代码行上抛出 Spark 错误消息:

IllegalArgumentException: "requirement failed: The number of distinct values for itemname, can't exceed 1e4. Currently 16467"

我希望我实际上并没有设置我试图设置的配置变量，那么有什么方法可以以编程方式实际设置该值(如果可能的话)？谢谢。

引用文献:

Finally, you may be interested to know that there is a maximum number of values for the pivot column if none are specified. This is mainly to catch mistakes and avoid OOM situations. The config key is spark.sql.pivotMaxValues and its default is 10,000.

来源:https://databricks.com/blog/2016/02/09/reshaping-data-with-pivot-in-apache-spark.html

我更愿意向上更改配置变量，因为我已经编写了交叉表代码，该代码在较小的数据集上效果很好。如果事实证明确实无法更改此配置变量，那么我的备份计划按顺序为:

关系右外连接来实现我自己的 Spark 交叉表，其容量高于 databricks 提供的容量
scipy 密集向量，使用字典手工制作独特的组合计算代码

最佳答案

kernel.json

此配置文件应与 jupyter 一起分发~/.ipython/kernels/pyspark/kernel.json

它包含 SPARK 配置，包括变量 PYSPARK_SUBMIT_ARGS - 将与 spark-submit 脚本一起使用的参数列表。

您可以尝试将 --conf spark.sql.pivotMaxValues=99999 添加到上述脚本中的此变量。

PS在某些情况下，人们试图覆盖此变量 programmatically 。你也可以尝试一下...

关于python - 如何在jupyter PySpark session 中更改SparkContext属性spark.sql.pivotMaxValues，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50530819/

30

4

0

文章推荐： java - 实现自己的 jar 时出现 NoClassDefFoundError

文章推荐： python - 在 python 3 中解析 markdown 文件中的元素

文章推荐： EaselJs - 跨域图像解决方法？

文章推荐： java - 如何修复: Anylogic does not connect to Eclipse over Socket

session - 是否为每个shinyR session 分配了唯一的 session id/ session key ？
是否为每个 Shiny session 分配了 session ID/ session key (如果部署在 Shiny 服务器上)？如果是，我如何访问该信息？我已阅读文档here然而上网查了一下，并
session - koajs session - session 存储在哪里？
我正在使用 this koajs session 模块。我检查了源代码，但我真的无法理解。我想知道它保存 session 数据的位置，因为我没有看到创建的文件，并且当服务器重新启动时， sessi
session - 粘性 session / session 亲和性负载平衡策略的优缺点？
实现高可扩展性的一种方法是使用网络负载平衡在多个服务器之间分配处理负载。这种方法提出的一个挑战是服务器是否具有状态意识 - 将用户状态存储在“ session ”中。此问题的一个解决方案是“粘性
session - session 亲和性和粘性 session 之间的区别？
在负载平衡服务器的上下文中， session 亲和性和粘性 session 之间有什么区别？最佳答案我见过这些术语可以互换使用，但有不同的实现方式: 在第一个响应中发送 cookie，然后在后续响
session - 设计Web应用程序: Session or session-less
我希望其他人向我解释哪种方法更好:使用 session 或设计无 session 。我们正在开始开发一个新的 Web 应用程序，但尚未决定要遵循什么路径。无 session 设计在我看来更可取: 优
session - 如何在tomcat中创建新 session 并保留旧 session ？
现在用户在他的权限中有很多角色，我将允许他点击 href 并在新窗口中扮演另一个角色。每个角色都有自己的 session 。既然浏览器打开窗口不能用新 session 打开，我必须在服务器端想办法。
session - Node 、 session 存储删除过期 session
我正在尝试为express.js Node 应用程序实现 session 存储我的问题是: 如何删除具有浏览器 session 生命周期的 cookie(根据连接文档标记有 expires = fal
session - session 的最佳实践( gorilla / session )
在开始在 golang 中使用 session 之前，我需要回答一些问题 session 示例 import "github.com/gorilla/sessions" var store = ses
php - 检测到服务 "session"的循环引用，路径 : "session -> session.flash_bag -> session"
我读过 Namespaced Attributes . 我尝试使用此功能: #src/Controller/CartController.php public function addProduct(
session - 修改 CakePHP session 的 session cookie 到期和 session 超时
我正在努力完成以下工作: 根据用户的类型更改用户的 session cookie 到期日期。我有一个 CakePHP Web 应用程序，其中我使用 CakePHP session 创建了我的身份验证
session - 使用有状态 session Bean 跟踪用户的 session
这是我在这里的第一个问题，我希望我做对了。我需要处理一个 Java EE 项目，所以在开始之前，我会尝试做一些简单的事情，看看我是否能做到。我坚持使用有状态 session Bean。这是问题:
session - ColdFusion session 与 J2EE session
ColdFusion session 与 J2EE session 相比有什么优势吗？ ColdFusion session documentation提到了 J2EE session 的优点，但没有
session - 创建 session 时在Grails中创建 session 变量
在执行任何任务之前，我需要准确地在创建 session 时创建一个 session 范围变量(因为我的所有任务都需要一个初始 session 范围变量才能运行)。因为，创建 session 时，gra
session - JWT 和每个用户一个(!) session /无并发 session
我们当前的应用使用 HTTP session ，我们希望将其替换为 JWT。该设置仅允许每个用户进行一次 session 。这意味着: 用户在设备 1 上登录用户已在设备 1 上登录(已创建新 s
session - 文件中的 session 和数据库中的 session 之间的区别
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
session - 如何关闭除当前 session 之外的用户打开的所有( Plone ) session ？
假设我在两个或更多设备上打开了两个或更多用户 session (同一用户没有管理员权限)。在当前 session 中，如果我注销，是否意味着所有其他 session 也会关闭？如果没有，有没有办法通
session - 粘性 session 和 session 复制
我正在评估在 tomcat 中使用带有 session 复制的粘性 session 的情况。根据我的初步评估，我认为如果我们启用 session 复制，那么在一个 tomcat 节点中启动的 sess
session - Gorilla session 文件系统存储找不到 session 文件
我开始使用 golang 和 Angular2 构建一个常规的网络应用程序，最重要的是我试图在 auth0.com 的帮助下保护我的登录.我从 here 下载快速入门代码并尝试运行代码，它运行了一段时
java - spring Controller 方法中相同类型的两个对象( session 和非 session )非 session 正在替换 session
我在 Spring Controller 中有一个方法，它接受两个相同类型的参数其中一个来自 session ，另一个来自表单提交(UI)。问题是在 Controller 方法中我的非 sessio
session - 身份验证为匿名的用户已尝试访问拥有的 session
在我登录之前，我可以点击我的安全约束目录之外的任何内容。如果我尝试转到安全约束目录内的某个位置，它会将我重定向到表单登录页面。如您所料。登录后，我可以继续我的业务，并访问我的安全约束内外的资源。

首页

博学

6Ren·AI

商城

python - 如何在jupyter PySpark session 中更改SparkContext属性spark.sql.pivotMaxValues