apache-spark - 我应该使用哪个记录器在 Cloud Logging 中获取数据-6ren

apache-spark - 我应该使用哪个记录器在 Cloud Logging 中获取数据

转载作者：行者123 更新时间：2023-12-04 04:19:06

26

4

我正在使用 Cloud Dataproc 运行 PySpark 作业，并希望使用 logging 记录信息Python的模块。目标是将这些日志推送到 Cloud Logging。

来自 this question ，我了解到我可以通过在 fluentd 配置中添加一个日志文件来实现这一点，该配置位于 /etc/google-fluentd/google-fluentd.conf .

但是，当我查看 /var/log 中的日志文件时，我找不到包含我的日志的文件。我试过使用默认的 python 记录器和 'py4j' 记录器。

logger = logging.getLogger()
logger = logging.getLogger('py4j')

谁能阐明我应该使用哪个记录器，以及应该将哪个文件添加到流利的配置中？

谢谢

最佳答案

tl;博士

现在不原生支持此功能，但 future 版本的 Cloud Dataproc 将原生支持。也就是说，在此期间有一个手动解决方法。

解决方法

首先，确保将 python 日志从 spark 上下文发送到正确的 log4j 记录器。为此，请将您的记录器声明为:

import pyspark
sc = pyspark.SparkContext()
logger = sc._jvm.org.apache.log4j.Logger.getLogger(__name__)

第二部分涉及 native 尚不支持的解决方法。如果您查看下的 Spark 属性文件

/etc/spark/conf/log4j.properties

在集群的主服务器上，您可以看到 log4j 是如何为 spark 配置的。目前它看起来如下所示:

# Set everything to be logged to the console
log4j.rootCategory=INFO, console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c: %m%n

# Settings to quiet third party logs that are too verbose
...

请注意，这意味着 log4j 日志仅发送到控制台。 dataproc 代理将获取此输出并将其作为 job driver ouput 返回.但是，为了让 fluentd 获取输出并将其发送到 Google Cloud Logging，您需要将 log4j 写入本地文件。因此，您将需要修改 log4j 属性，如下所示:

# Set everything to be logged to the console and a file
log4j.rootCategory=INFO, console, file
# Set up console appender.
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c: %m%n

# Set up file appender.
log4j.appender.file=org.apache.log4j.RollingFileAppender
log4j.appender.file.File=/var/log/spark/spark-log4j.log
log4j.appender.file.MaxFileSize=512KB
log4j.appender.file.MaxBackupIndex=3
log4j.appender.file.layout=org.apache.log4j.PatternLayout
log4j.appender.file.layout.conversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c: %m%n

# Settings to quiet third party logs that are too verbose
...

如果您将文件设置为/var/log/spark/spark-log4j.log，如上所示，您的 Dataproc 集群上的默认 fluentd 配置应该会选择它。如果您想将文件设置为其他内容，可以按照 this question 中的说明进行操作。流利地拿起那个文件。

关于apache-spark - 我应该使用哪个记录器在 Cloud Logging 中获取数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34286750/

26

4

0

文章推荐： c# - 尝试将 .net 核心项目从 2.2 迁移到 3.1

文章推荐： aws-lambda - 无服务器框架 : CloudFormation Variable Import/Export

文章推荐： .net - 如何在 WPF MVVM 中使用用户控件

Android Log.v()、Log.d()、Log.i()、Log.w()、Log.e() - 什么时候使用它们？
不同的 LogCat 方法是: Log.v(); // Verbose Log.d(); // Debug Log.i(); // Info Log.w(); // Warning Log.e();
Android开发笔记之:Log图文详解(Log.v,Log.d,Log.i,Log.w,Log.e)
在android群里，经常会有人问我,android　log是怎么用的，今天我就把从网上以及sdk里东拼西凑过来，让大家先一睹为快，希望对大家入门android　log有一定的帮助． android
logging - Log.INFO 与 Log.DEBUG
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 4 年前。社区 12
logging - 重命名 "log"记录器以符合格式 "LOG(?:GER)?"
我正在尝试使用 sonarlint 检查代码质量.上面的问题概要，我不明白为什么它要说要大写。但是 this discussion与上述建议相反。哪一个应该被认为是正确的？最佳答案这没有正确答案，
algorithm - 哪个增长率 log(log *n) 和 log*(log n) 更快？
随着 n 变大，log*(log n) 和 log(log* n) 这两个函数会更快吗？这里，log* 函数是迭代对数，定义如下: 我怀疑它们是相同的，只是写法不同，但它们之间有什么区别吗？最佳答
algorithm - 复杂度是 O(log(n) + log(n/2) + log(n/4) + log(n/8) + ... + log(2)) = O(log(n)) 吗？
作为家庭作业，我被要求在 O(log(n)) 中编写一个算法，我可以计算出我编写的算法的复杂度为 O(log(n) + log(n/2) + log(n/4) + log(n/8) + ... + l
tomcat - localhost.log、catalina.log、manager.log、host-manager.log 之间有什么区别？
我正在使用 Tomee。日志文件夹包含这样的文件 localhost_access_log.2016-12-02.txt localhost.2016-12-02.log catalina.2016-
android - android Log.v、Log.d、Log.i、Log.e 等的 ios 等效项是什么？
Android Log.v、Log.d、Log.i、Log.e 等的 ios 等效项是什么？同样在 android 上，我使用 Android 设备监视器和 logcat 来访问我的手机日志，我需要在
c++ - 以下代码段的复杂度 : log log n or log n?
我认为下面的代码是 O(log log n) 因为它里面有 i*i 但我对 log n 感到困惑> 和 log (log n)。 for (i=2; i*i<=number; i++) { if
logging - dmesg 和/var/log/kern.log 之间的区别
我正在修改 kvm 模块，并在内核代码中添加了 printk 语句。运行虚拟机后，printk 为我提供了错误地址和有关 guest 操作系统的其他信息。我需要从这个信息中生成统计信息。当我使用 d
logging - 企业库5 : Exceptions not being logged to Event log on Windows Azure
我有一个部署为 Windows Azure Web 角色的 WCF 服务。我正在使用 Enterprise Library 进行异常处理，并且在我的本地 Development Fabric 中，似
logging - 哪个最好 : First Log then do the Operation OR First do the Operation then Log it?
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 9 年前。 Improv
go - 生产中的 log.SetFlags(log.LstdFlags | log.Lshortfile)
在 Go 的生产中使用 log.SetFlags(log.LstdFlags | log.Lshortfile) 是好的做法(至少是一般做法)吗？我想知道在生产中这样做是否存在性能或安全问题。因为它不
java - 性能:log(a/b) 与 log(a) - log(b)
我想知道什么更快: double value = Math.log(a) - Math.log(b); 或 double value = Math.log(a/b); 我计算值的方式是否会对性能产生影
logging - Golang : Does logging into file using log. Println 负责并发访问
我有数百个子例程使用 log.Println() 写入日志文件我正在使用 log.Println 写入 error.log 文件。 func main() { e, err := os.Open
logging - Nuxt SSR : Logging with response time into access.日志和error.log
我将 Nuxt 与 SSR 一起使用，并希望有类似于 apaches 的 access.log 和 error.log 的东西我特别感兴趣的是每次调用的响应时间。我在 nuxt 文档中找不到任何内
logging - Nginx 记录到 access.log.1 而不是 access.log
我知道以前有人问过这个问题，但我相信这是一个不同的问题。 Nginx 在 www-data 下运行: $ ps -eo "%U %G %a" | grep nginx root root
logging - 奇怪的 openssh-server 登录/var/log/auth.log
我在我的日志文件中发现了一个非常奇怪的条目 Jan 29 01:35:30 vs-proj-handy sshd[5316]: Received disconnect from 130.207.203
android - 检索对 Log 的调用？例如Log.w() Log.e() Log.i()
对于我正在开发的应用程序，我希望在开发过程中和发布时简化故障排除。我希望能够检索到对 Log 的调用，以了解在 USB 调试中没有连接手机的情况下运行应用程序时的调用，以便可以检索并发送给我。例如，当
logging - 戈朗 : How to capture panic and log this error to original log file?
我试图捕获 panic 并记录错误: func (s *server) SayHello(ctx context.Context, in *pb.HelloRequest) (*pb.HelloRep

首页

博学

6Ren·AI

商城

apache-spark - 我应该使用哪个记录器在 Cloud Logging 中获取数据