gpt4 book ai didi

hadoop - Hive 查询生成管理不善的登台目录

转载 作者:可可西里 更新时间:2023-11-01 16:47:59 25 4
gpt4 key购买 nike

我们使用的是 HDP hadoop 发行版 v2.3.2,我们正在处理 Hive 外部表,并且每天都会查询这些表。

进程启动几天后,数据目录包含大量暂存目录,格式为:.hive-staging_hive_date-time_ 生成了很多暂存目录,每个暂存目录对应一个在 Hive 表上运行的查询。

我该怎么做才能避免这些暂存目录堆积到我的数据目录中?

最佳答案

我在 https://stackoverflow.com/a/35583367/14186 发布的答案可以在这里帮助你。您可以配置 Hive 以将这些暂存目录放在其他地方(通常将它们作为最终目标目录的子目录)

在那个答案的例子中,我让 hive 把它们放在/tmp 下的目录中,我们有一个每天运行的 cron-job 来删除任何超过 1 周的剩余暂存目录,以保持整洁,以防 hive不会删除它们。

关于hadoop - Hive 查询生成管理不善的登台目录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35176190/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com