gpt4 book ai didi

logging - PySpark 日志记录?

转载 作者:行者123 更新时间:2023-12-03 13:01:04 24 4
gpt4 key购买 nike

我希望我的 Spark 驱动程序(用 Python 编写)输出一些基本的日志记录信息。我可以看到三种方法来做到这一点:

  • 使用 PySpark py4j 网桥访问 Spark 使用的 Java log4j 日志记录工具。

  • log4jLogger = sc._jvm.org.apache.log4j
    LOGGER = log4jLogger.LogManager.getLogger(__name__)
    LOGGER.info("pyspark script logger initialized")
  • 只需使用标准控制台打印。
  • logging Python 标准库模块。这似乎是理想的和最 Pythonic 的方法,但是,至少开箱即用,它不起作用,并且记录的消息似乎不可恢复。当然,这可以配置为记录到 py4j->log4j 和/或控制台。

  • 因此,官方编程指南 ( https://spark.apache.org/docs/1.6.1/programming-guide.html) 根本没有提到日志记录。这令人失望。应该有标准的记录推荐的方式来从 Spark 驱动程序记录日志。

    搜索了这个问题,发现了这个: How do I log from my Python Spark script

    但是那个线程的内容并不令人满意。

    具体来说,我有以下问题:
  • 我是否缺少从 PySpark 驱动程序记录的标准方法?
  • 登录到 py4j->log4j vs 控制台有什么优点/缺点吗?
  • 最佳答案

    更简洁的解决方案是使用标准的 python 日志记录模块和自定义的分布式处理程序来收集来自 spark 集群的所有节点的日志消息。

    "Logging in PySpark" of this Gist.

    关于logging - PySpark 日志记录?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37291690/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com