gpt4 book ai didi

Databricks:在 cron 上删除根 DBFS 上的集群日志和修订

转载 作者:行者123 更新时间:2023-12-05 04:53:22 24 4
gpt4 key购买 nike

在调查高数据 block 费用时,我惊奇地发现,其中很多实际上是一个自动创建的存储帐户,具有 GRS 复制到另一个包含大量日志文件(TB 上 TB 数据)的区域例如:

dbutils.fs.ls('dbfs:/cluster-logs')
dbfs:/cluster-logs/1129-093452-heard78

如何在不删除前一天左右的日志的情况下每天自动删除这些数据

还有如何将这些日志发送到其他地方(如果我愿意)

最佳答案

解决方案之一是创建一个单独的存储帐户,不带 GRS 选项,仅用于日志,并为文件设置特定时间长度的保留期,例如几天。应该安装此存储帐户,并将日志位置更改为指向该安装。您可以通过 cluster policies 强制执行,例如。

可以使用 spark-monitoring 将集群日志发送到 Azure Log Analytics来自 Microsoft(有关详细信息,请参阅 official docs)。如果您想将它们发送到其他地方,您可以设置 init scripts (集群或全局),并使用特定的客户端来发送您需要的任何日志。

关于Databricks:在 cron 上删除根 DBFS 上的集群日志和修订,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66114728/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com