- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我的服务器快满了,我需要自动删除文件。文件通常每天都会添加到我的服务器,但有时会有暂停,使它们每两周或每月一次。他们停止进来几个月然后又开始了,这是不可预测的。
我的脚本需要删除超过 30 天的文件但始终保留它找到的任何文件模式的最新 5 个文件。这是棘手的部分。
关于文件的唯一可预测的事情/模式是文件总是在某处包含一个 yyyymmddhhmmss 时间戳和一些重复的模式,文件名的其他部分并不总是可以预测的。如果文件没有时间戳,我不想删除它。
一个示例目录我有这样的东西
20121118011335_team1-pathway_Truck_Report_Data_10342532.zip
20121119011335_team1-pathway_Truck_Report_Data_102345234.zip
20121120011335_team1-pathway_Truck_Report_Data_10642224.zip
20121121011335_team1-pathway_Truck_Report_Data_133464.zip
20121122011335_team1-pathway_Truck_Report_Data_126434344.zip
20121123011335_team1-pathway_Truck_Report_Data_12444656.zip
20121124011335_team1-pathway_Truck_Report_Data_1624444.zip
20121125011335_team1-pathway_Truck_Report_Data_3464433.zip
带节点的随机文件.zip
20121119011335_team2-Paper_Size_Report_336655.zip
20121120011335_team2-Paper_Size_Report_336677.zip
20121121011335_team2-Paper_Size_Report_338877.zip
20121122011335_team2-Paper_Size_Report_226688.zip
20121123011335_team2-Paper_Size_Report_776688.zip
20121124011335_team2-Paper_Size_Report_223355.zip
20121125011335_team2-Paper_Size_Report_111111.zip
在这种情况下,我的脚本应该只删除第一个模式中最旧的 3 个文件20121118011335_team1-pathway_Truck_Report_Data_10342532.zip
20121119011335_team1-pathway_Truck_Report_Data_102345234.zip
20121120011335_team1-pathway_Truck_Report_Data_10642224.zip
和第二个模式中最早的2个文件
20121119011335_team2-Paper_Size_Report_336655.zip
20121120011335_team2-Paper_Size_Report_336677.zip
这样它会保留 5 个最新的文件并且不会触及没有日期的文件
我的问题是我无法知道接下来会发生什么 yyyymmddhhmmss_我只知道它将是 yyyymmddhhmmss_something_consistent_random_random 或 yyyymmddhhmmss_something_consistent_something_consistent_random_random.xyz 的各种迭代
到目前为止,如果时间戳存在,我已经想出了匹配的正则表达式,但我想不出如何让我的脚本足够智能以检测文件模式的其余部分并保留 5 天一种模式。
欢迎任何想法!下面的脚本并不完美,我可以修复小错误。
我真的需要帮助,主要是保留 5 个最新文件部分
奖金问题是 epoc 时间部分。
def myCleansingMethod(self, client)
# Get rid of things older than 30 days
# 30 days has this many seconds 30 * 24 * 60 * 60
numberOfSeconds = 2592000
# establish what the epoc time of the oldest file I want to keep is
oldestFileThatIWantToKeep = time.time() - numberOfSeconds
#establish my working directory
workingDirectory = "/home/files/%s" % (client)
try:
files = os.listdir(workingDirectory)
except:
print "Could not find directory"
return
files.sort()
for file in files:
# define Full File Name (path + file)
fullFileName = "%s/%s" % (workingDirectory, file)
# make sure the file contains yyyymmddhhmmss
match = re.search(r'[0-9]{4}(1[0-2]|0[1-9])(3[01]|[12][0-9]|0[1-9])([01]\d|2[0123])([0-5]\d){2}', file)
if match:
#get what was matched in the RegEx
fileTime = match.group()
#convert fileTime to Epoc time
fileTimeToEpoc = (fileTime + NOT SURE HOW TO DO THIS PART YET)
if fileTimeToEpoc < oldestFileThatIWantToKeep AND (CODE THAT MAKES SURE THERE ARE AT LEAST 5 FILES OF THE SAME PATTERN PRESENT) :
print "Delete file: %s\t%s" % (fileTimeToEpoc, fullFileName)
command = "rm -Rf %s" % fullFileName
print command
os.system (command)
else:
pass
else:
pass
最佳答案
这是一个很好的任务,我大量使用了函数模式,主要来自 itertools
。我喜欢使用迭代器,因为它们是可扩展的,即使对于巨大的列表也是如此,并且所涉及的功能思想使代码可读和可维护。
首先,从 itertools 和 datetime 导入我们需要的东西:
from itertools import groupby, chain
from datetime import datetime
获取示例文件名列表:
filenames = """20121118011335_team1-pathway_Truck_Report_Data_10342532.zip
20121119011335_team1-pathway_Truck_Report_Data_102345234.zip
20121120011335_team1-pathway_Truck_Report_Data_10642224.zip
20121121011335_team1-pathway_Truck_Report_Data_133464.zip
20121122011335_team1-pathway_Truck_Report_Data_126434344.zip
20121123011335_team1-pathway_Truck_Report_Data_12444656.zip
20121124011335_team1-pathway_Truck_Report_Data_1624444.zip
20121125011335_team1-pathway_Truck_Report_Data_3464433.zip
randomefilewithnodate.zip
20121119011335_team2-Paper_Size_Report_336655.zip
20121120011335_team2-Paper_Size_Report_336677.zip
20121121011335_team2-Paper_Size_Report_338877.zip
20121122011335_team2-Paper_Size_Report_226688.zip
20121123011335_team2-Paper_Size_Report_776688.zip
20121124011335_team2-Paper_Size_Report_223355.zip
20121125011335_team2-Paper_Size_Report_111111.zip""".split("\n")
一些辅助函数。名称应该是 self 解释。
def extract_date(s):
return datetime.strptime(s.split("_")[0], "%Y%m%d%H%M%S")
def starts_with_date(s):
try:
extract_date(s)
return True
except Exception:
return False
如果下一个方法不能涵盖所有情况,您可能想要调整 - 对于您的样本数据,它确实如此。
def get_name_root(s):
return "".join(s.split(".")[0].split("_")[1:-1])
def find_files_to_delete_for_group(group):
sorted_group = sorted(group, key=extract_date)
return sorted_group[:-5]
现在,整个例程可以通过一些迭代来完成。首先,我过滤文件名列表,过滤掉所有不以数据(以您的格式)开头的文件名。然后,其余的按他们的“名称根”分组(想不出更好的名称)。
fn_groups = groupby(
filter(
starts_with_date,
filenames),
get_name_root
)
现在,对于每个组,我应用一种过滤方法(见上文)来查找所有不包含五个最新日期的文件名。为每个组找到的内容是链
的,即,一个迭代器是从多个列表创建的:
fns_to_delete = chain(*[find_files_to_delete_for_group(g) for k, g in fn_groups])
最后,为了方便检查结果,我将迭代器转换为列表并打印出来:
print list(fns_to_delete)
这个脚本的输出是:
['20121118011335_team1-pathway_Truck_Report_Data_10342532.zip', '20121119011335_team1-pathway_Truck_Report_Data_102345234.zip', '20121120011335_team1-pathway_Truck_Report_Data_10642224.zip', '20121119011335_team2-Paper_Size_Report_336655.zip', '20121120011335_team2-Paper_Size_Report_336677.zip']
有什么不明白的,尽管问。
下面是完整的脚本,用于简单的 c&p-ing:
from itertools import groupby, chain
from datetime import datetime
filenames = """20121118011335_team1-pathway_Truck_Report_Data_10342532.zip
20121119011335_team1-pathway_Truck_Report_Data_102345234.zip
20121120011335_team1-pathway_Truck_Report_Data_10642224.zip
20121121011335_team1-pathway_Truck_Report_Data_133464.zip
20121122011335_team1-pathway_Truck_Report_Data_126434344.zip
20121123011335_team1-pathway_Truck_Report_Data_12444656.zip
20121124011335_team1-pathway_Truck_Report_Data_1624444.zip
20121125011335_team1-pathway_Truck_Report_Data_3464433.zip
randomefilewithnodate.zip
20121119011335_team2-Paper_Size_Report_336655.zip
20121120011335_team2-Paper_Size_Report_336677.zip
20121121011335_team2-Paper_Size_Report_338877.zip
20121122011335_team2-Paper_Size_Report_226688.zip
20121123011335_team2-Paper_Size_Report_776688.zip
20121124011335_team2-Paper_Size_Report_223355.zip
20121125011335_team2-Paper_Size_Report_111111.zip""".split("\n")
def extract_date(s):
return datetime.strptime(s.split("_")[0], "%Y%m%d%H%M%S")
def starts_with_date(s):
try:
extract_date(s)
return True
except Exception:
return False
def get_name_root(s):
return "".join(s.split(".")[0].split("_")[1:-1])
def find_files_to_delete_for_group(group):
sorted_group = sorted(group, key=extract_date)
return sorted_group[:-5]
fn_groups = groupby(
filter(
starts_with_date,
filenames),
get_name_root
)
fns_to_delete = chain(*[find_files_to_delete_for_group(g) for k, g in fn_groups])
print list(fns_to_delete)
关于python 删除与未知模式匹配的旧文件(棘手),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14724304/
今天我在一个 Java 应用程序中看到了几种不同的加载文件的方法。 文件:/ 文件:// 文件:/// 这三个 URL 开头有什么区别?使用它们的首选方式是什么? 非常感谢 斯特凡 最佳答案 file
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
我有一个 javascript 文件,并且在该方法中有一个“测试”方法,我喜欢调用 C# 函数。 c# 函数与 javascript 文件不在同一文件中。 它位于 .cs 文件中。那么我该如何管理 j
需要检查我使用的文件/目录的权限 //filePath = path of file/directory access denied by user ( in windows ) File fil
我在一个目录中有很多 java 文件,我想在我的 Intellij 项目中使用它。但是我不想每次开始一个新项目时都将 java 文件复制到我的项目中。 我知道我可以在 Visual Studio 和
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 这个问题似乎不是关于 a specific programming problem, a software
我有 3 个组件的 Twig 文件: 文件 1: {# content-here #} 文件 2: {{ title-here }} {# content-here #}
我得到了 mod_ldap.c 和 mod_authnz_ldap.c 文件。我需要使用 Linux 命令的 mod_ldap.so 和 mod_authnz_ldap.so 文件。 最佳答案 从 c
我想使用PIE在我的项目中使用 IE7。 但是我不明白的是,我只能在网络服务器上使用 .htc 文件吗? 我可以在没有网络服务器的情况下通过浏览器加载的本地页面中使用它吗? 我在 PIE 的文档中看到
我在 CI 管道中考虑这一点,我应该首先构建和测试我的应用程序,结果应该是一个 docker 镜像。 我想知道使用构建环境在构建服务器上构建然后运行测试是否更常见。也许为此使用构建脚本。最后只需将 j
using namespace std; struct WebSites { string siteName; int rank; string getSiteName() {
我是 Linux 新手,目前正在尝试使用 ginkgo USB-CAN 接口(interface) 的 API 编程功能。为了使用 C++ 对 API 进行编程,他们提供了库文件,其中包含三个带有 .
我刚学C语言,在实现一个程序时遇到了问题将 test.txt 文件作为程序的输入。 test.txt 文件的内容是: 1 30 30 40 50 60 2 40 30 50 60 60 3 30 20
如何连接两个tcpdump文件,使一个流量在文件中出现一个接一个?具体来说,我想“乘以”一个 tcpdump 文件,这样所有的 session 将一个接一个地按顺序重复几次。 最佳答案 mergeca
我有一个名为 input.MP4 的文件,它已损坏。它来自闭路电视摄像机。我什么都试过了,ffmpeg , VLC 转换,没有运气。但是,我使用了 mediainfo和 exiftool并提取以下信息
我想做什么? 我想提取 ISO 文件并编辑其中的文件,然后将其重新打包回 ISO 文件。 (正如你已经读过的) 我为什么要这样做? 我想开始修改 PSP ISO,为此我必须使用游戏资源、 Assets
给定一个 gzip 文件 Z,如果我将其解压缩为 Z',有什么办法可以重新压缩它以恢复完全相同的 gzip 文件 Z?在粗略阅读了 DEFLATE 格式后,我猜不会,因为任何给定的文件都可能在 DEF
我必须从数据库向我的邮件 ID 发送一封带有附件的邮件。 EXEC msdb.dbo.sp_send_dbmail @profile_name = 'Adventure Works Admin
我有一个大的 M4B 文件和一个 CUE 文件。我想将其拆分为多个 M4B 文件,或将其拆分为多个 MP3 文件(以前首选)。 我想在命令行中执行此操作(OS X,但如果需要可以使用 Linux),而
快速提问。我有一个没有实现文件的类的项目。 然后在 AppDelegate 我有: #import "AppDelegate.h" #import "SomeClass.h" @interface A
我是一名优秀的程序员,十分优秀!