gpt4 book ai didi

apache-spark - 将 Dataproc 日志获取到 Stackdriver Logging

转载 作者:行者123 更新时间:2023-12-02 00:23:59 24 4
gpt4 key购买 nike

我正在运行 Dataproc 并使用默认的 client-mode 提交 Spark 作业。作业的日志在 GCP 控制台中可见,并且在 GCS 存储桶中可用。不过,我想在 Stackdriver Logging 中查看日志。

目前,我发现的唯一方法是改用集群模式

在使用client-mode 时,有没有办法将日志推送到 Stackdriver?

最佳答案

这是 Dataproc 团队正在积极努力的事情,应该很快就会为您提供解决方案。如果您想提交一个公共(public)功能请求来跟踪这个,这是一个选项,但我会在您可以使用此功能时尝试更新此回复。

深入研究一下,您在使用集群模式时可以看到日志的原因是我们有默认获取 YARN 容器日志(用户日志)的 Fluentd 配置。在集群模式下运行时,驱动程序在 YARN 容器中运行,这些日志由该配置获取。

目前,驱动程序生成的输出由 Dataproc 代理直接转发到 GCS。将来会有一个选项,可以在启动集群时将所有驱动程序输出发送到 Stackdriver。

更新:

此功能现在处于 Beta 阶段,可以稳定使用。创建集群时,属性“dataproc:dataproc.logging.stackdriver.job.driver.enable”可用于切换集群是否将作业驱动程序日志发送到 Stackdriver。此外,您可以使用属性“dataproc:dataproc.logging.stackdriver.job.yarn.container.enable”让集群将 YARN 容器日志与它们创建的作业而不是它们运行的​​集群相关联。

文档可用here

关于apache-spark - 将 Dataproc 日志获取到 Stackdriver Logging,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54400904/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com