gpt4 book ai didi

python - pyspark 禁用日志记录到 STDOUT

转载 作者:太空宇宙 更新时间:2023-11-03 14:01:12 26 4
gpt4 key购买 nike

我一直在使用 PySpark 并且在日志记录方面遇到问题。来自 Spark 模块的日志通过管道传输到 STDOUT,我无法从 Python 控制它。

例如,诸如此类的日志将通过管道传输到 STDOUT 而不是 STDERR:

2018-03-12 09:50:10 WARN Utils:66 - Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.debug.maxToStringFields' in SparkEnv.conf.

环境中未安装Spark,仅安装PythonPyspark

我该怎么办:

A.将所有日志重定向到 STDERR

或者

B.如果不可能,请禁用日志。

<小时/>

我尝试过的事情:

  1. 我尝试使用pyspark.SparkConf(),但我在那里配置的任何内容似乎都不起作用。
  2. 我尝试创建 SparkEnv.conf 并将 SPARK_CONF_DIR 设置为匹配,只是为了检查是否至少可以禁用上面的示例日志,但无济于事。<
  3. 我尝试查看 documentation但没有说明如何完成我正在尝试的事情。

最佳答案

您可以将日志级别设置为 ERROR,这样它只会显示 ERROR 日志:

sc.setLogLevel("ERROR")  # sc is a SparkContext() object from the pyspark lib

但是如果您想禁用所有 PySpark 日志,您可以这样做:

sc.setLogLevel("OFF")

检查这个Stack Thread

关于python - pyspark 禁用日志记录到 STDOUT,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49232611/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com