作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在调查高数据 block 费用时,我惊奇地发现,其中很多实际上是一个自动创建的存储帐户,具有 GRS 复制到另一个包含大量日志文件(TB 上 TB 数据)的区域例如:
dbutils.fs.ls('dbfs:/cluster-logs')
dbfs:/cluster-logs/1129-093452-heard78
如何在不删除前一天左右的日志的情况下每天自动删除这些数据
还有如何将这些日志发送到其他地方(如果我愿意)
最佳答案
解决方案之一是创建一个单独的存储帐户,不带 GRS 选项,仅用于日志,并为文件设置特定时间长度的保留期,例如几天。应该安装此存储帐户,并将日志位置更改为指向该安装。您可以通过 cluster policies 强制执行,例如。
可以使用 spark-monitoring 将集群日志发送到 Azure Log Analytics来自 Microsoft(有关详细信息,请参阅 official docs)。如果您想将它们发送到其他地方,您可以设置 init scripts (集群或全局),并使用特定的客户端来发送您需要的任何日志。
关于Databricks:在 cron 上删除根 DBFS 上的集群日志和修订,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66114728/
我是一名优秀的程序员,十分优秀!