apache-spark - 在 Pyspark/Jupyter 中设置 spark.local.dir-6ren

apache-spark - 在 Pyspark/Jupyter 中设置 spark.local.dir

转载作者：行者123 更新时间：2023-12-04 04:16:49

28

4

我正在使用 Jupyter 笔记本中的 Pyspark，并尝试将大型 Parquet 数据集写入 S3。
我收到“设备上没有剩余空间”错误。我四处搜寻，得知这是因为/tmp 已满。
我现在想编辑 spark.local.dir指向一个有空间的目录。
如何设置此参数？
我发现的大多数解决方案都建议在使用 spark-submit 时进行设置。但是，我没有使用 spark-submit，只是将它作为 Jupyter 的脚本运行。

编辑:我正在使用 Sparkmagic 来处理 EMR 后端。我认为 spark.local.dir需要在配置 JSON 中设置，但我不知道如何在那里指定它。
我尝试将其添加到 session_configs但它没有用。

最佳答案

答案取决于您的 SparkContext来自。

如果您使用 pyspark 启动 Jupyter :

PYSPARK_DRIVER_PYTHON='jupyter'\
PYSPARK_DRIVER_PYTHON_OPTS="notebook" \
PYSPARK_PYTHON="python" \
pyspark

那么当您在 Jupyter 中收到 Python 内核时，您的 SparkContext 已经初始化。因此，您应该将参数传递给 pyspark(在上述命令的末尾): --conf spark.local.dir=...
如果您正在构建 SparkContext在 Python

如果您的笔记本中有代码，例如:

import pyspark
sc = pyspark.SparkContext()

然后您可以在创建 Spark 上下文之前对其进行配置:

import pyspark
conf = pyspark.SparkConf()
conf.set('spark.local.dir', '...')
sc = pyspark.SparkContext(conf=conf)

从命令行配置 Spark:

也可以通过在 bash 中编辑配置文件来配置 Spark。您要编辑的文件是 ${SPARK_HOME}/conf/spark-defaults.conf .您可以按如下方式附加到它(如果它不存在则创建它):

echo 'spark.local.dir /foo/bar' >> ${SPARK_HOME}/conf/spark-defaults.conf

关于apache-spark - 在 Pyspark/Jupyter 中设置 spark.local.dir，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51092758/

28

4

0

文章推荐： ruby-on-rails - Rspec Controller 进出同名命名空间

文章推荐： .net - 签署 F# 程序集

文章推荐： scala - 如何在Slick 3.0.0中使用StaticQuery？

c++ - 当 "local"、 "global"和 "local"变量存在同名时如何访问 "very local"变量
int i = 1; int main() { int i = 2; { int i = 3; cout 值为 3)。您能做的最好的事情就是在它仍在范
localization - Angularjs 和 $locale
我可以手动为某些应用程序设置 $locale 吗？支持本地化的唯一方法是否可能是包含当前语言环境的 Angular 库中的本地化文件。如果存在多种文化怎么办？在这种情况下我必须动态加载本地化文件？我
local - CUPS @LOCAL 值
我有两台机器。一个使用 CUPS 1.5.0，另一个使用 CUPS 1.6.1。两台机器位于同一本地网络上。我想要完全发现网络上的打印机。如果我运行以下命令: CUPS_DEBUG_LEVEL=2 /
local - 使用连接池时关闭 "local"OrientDB
所以我基本上是这样做的。 OObjectDatabaseTx result = OObjectDatabasePool.global().acquire( "local:orientdb", "adm
javascript - ““Meteor - tsega/meteor-bootstrap3-datetimepicker 类型错误 : locale() locale it is not loaded from moment locales! “
控制台日志重新显示此错误 tsega/meteor-bootstrap3-datetimepicker TypeError: locale() locale it is not loaded from
javascript - express 4。 app.locals、res.locals 和 req.app.locals 之间有什么区别？
我在使用 express 4 时很困惑。我使用 express-generator 来生成我的项目。根目录下有app.js，路由器文件有index.js。但是网上关于express的教程都是直接在
android - SimpleDateFormat(String template, Locale locale)，例如 Locale.US 用于 ASCII 日期
问题:直接使用 SimpleDateFormat，无需明确的语言环境Id:SimpleDateFormat SimpleDateFormat format = new SimpleDateFormat
python - 为什么 locale.strxfrm ("Gè") locale.strxfrm ("Gène")) 的前缀不是 locale "fr_FR.UTF-8"？
这里的代码在 Python 中，但在使用语言环境的 C/C++ 中的行为应该是相同的。 >>> import locale >>> locale.setlocale(locale.LC_ALL, "f
localization - app-localize-behavior 和共享本地化缓存
根据 app-localize-behavior 的 polymer 文档 Each element that displays content to be localized should add
localization - 将小部件移动到另一个文件后，Flutter Localization 功能不起作用？
起初我从 this tutorial 实现 l10n到 Flutter 的模板项目文件，这是成功的。之后，我尝试将 MyHomePage 类移动到名为 home.dart 的新文件中。它停止工作是因为
ERROR: could not load library "/usr/local/pgsql-13/lib/age.so": /usr/local/pgsql-13/lib/age.so: undefined symbol: hash_any_extended(错误：无法加载库“/usr/local/pgsql-13/lib/age.so”：/usr/local/pgsql-13/lib/age.so：未定义符号：HASH_ANY_EXTENDED)
我正在使用源代码中的Postgres 13(Rel_13_STRATE分支)，并且我使用的是来自apachea/age源代码的(Release/PG13/1.3.0分支)中的1.3.0版的Apache
angular - 部署/运行: local Express web-server and local client-side angular app that sends ajax requests to this local web-server
我有: 基于节点Express的Web服务器，应仅在用户的本地计算机上运行一个 Angular 客户端应用程序，它将GET Http请求发送到该本地Web服务器以获取JSON中的数据并将其显示在浏览
node.js - Express 中间件中的 req.locals vs. res.locals vs. res.data vs. req.data vs. app.locals
问了一些类似的问题，但我的问题是，如果我想传播不同路由中间件的中间结果，最好的方法是什么？ app.use(f1); app.use(f2); app.use(f3); function f1(req
javascript - 从服务器发送的 locals AND locals._locals (克隆)
我注意到我的本地变量中有从服务器收到的本地变量的副本。例如 Object { settings: "4.2", env: "development", utils: true,
networking - 如何在Powershell中检索Vista的网络状态(例如 “Local Only”， “Local and Internet”)
我的网卡不稳定，尤其是从休眠状态恢复后，有时会掉线。退出对应于Vista的网络状态，在通知区域中显示为“仅限本地”。是否可以通过编程方式检索这些状态值(例如“有限连接”，“仅本地”，“本地和Inter
中间人 - 我如何访问 Locale/Localization/lang 变量
你好想知道在模板中是否有一种简单的方法来访问当前翻译的 lang 字符串。最佳答案您可以使用 I18n.locale 访问它. 所以在 ERB 中...... ...在 HAML 中: = I1
Python:pickling locals()，或者 locals 有一个更轻量级的表兄弟吗？
我在 Django 中工作。在 Django 中，当您渲染模板时，您向其发送一个上下文字典以进行替换。因为我很懒/干，所以我经常使用 locals() 作为快捷方式，而不是发送看起来像 {'my_va
java Locale.Builder setExtension(Locale.UNICODE_LOCALE_EXTENSION
我一直在尝试让 Java 根据语言环境转换数字。偶遇this post这在很大程度上帮助了我预先理解这一点，我设计了自己的方法将数字转换为特定的语言环境(根据关于这个主题的其他混淆讨论) 所以假设我有
hadoop - Rack-local map任务和Data-local map任务有什么区别？
当我运行“hadoop job -status xxx”时，输出以下一些列表。 Rack-local map tasks=124 Data-local map tasks=6 Rack-local m
localization - 网站语言 : use browser locale or IP address
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 3个月前关闭。 Improve

首页

博学

6Ren·AI

商城

apache-spark - 在 Pyspark/Jupyter 中设置 spark.local.dir