- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我的目标是从 dir
中删除 1000 万个临时文件。因此,我尝试编写一个 Python 脚本来执行此操作。第一个场景看起来像 that :
#!/usr/bin/python
import os,sys
dirname = os.getcwd() if len(sys.argv) == 1 else sys.argv[1]
deleteConfirm = raw_input('Delete all files from dir ' + str(dirname) + ' (y/n)? ')
if(deleteConfirm not in ['y','Y']):
os._exit(0)
counter = 0
flist = os.listdir(dirname)
for file in flist:
os.remove(os.path.join(dirname, file))
counter+=1
if(0==counter%1000):
sys.stdout.write('\rDeleted %d files' % counter)
sys.stdout.flush()
print '\nDeleted %d files' % counter
此代码有效,但我发现它每 10-15 秒停止一次,并且在几分钟左右不工作。例如,前几秒场景快速输出已删除文件的数量——它仅在 3-5 秒内删除了 28000 个文件,但随后它的输出停止在“已删除 28000 个文件”并等待很长时间——大约一分钟左右。然后输出再次快速更新,并在几秒钟内再次删除数千个文件。但随后它再次停止并等待某些东西。我认为这是由于锁定的文件,所以我尝试编写新的场景,使用 python3 和多处理模块,在几个进程中删除文件。我认为这可能会有所帮助,因为即使一个进程等待某个文件解锁,其他进程也会完成他们的工作。
Here是新脚本:
#!/usr/bin/python3
import os, sys, time
from multiprocessing import Pool
dirname = os.getcwd() if len(sys.argv) == 1 else sys.argv[1]
procNum = 5 if len(sys.argv) < 3 else sys.argv[2]
deleteConfirm = input('Delete all files from dir ' + str(dirname) + ' (y/n)? ')
if(deleteConfirm not in ['y','Y']):
sys.exit()
def main():
flist = os.listdir(dirname)
count = len(flist)
if count < 100000:
counter = 0
for file in flist:
os.remove(os.path.join(dirname, file))
counter+=1
if(0==counter%1000):
sys.stdout.write('\rDeleted %d files' % counter)
sys.stdout.flush()
print('\rDeleted %d files' % counter)
sys.exit(0)
else:
workers = Pool(processes=procNum)
result = workers.imap_unordered(delfile,flist)
workers.close()
while True:
time.sleep(5)
completed = result._index
if completed == count:
print('')
break
sys.stdout.write('\rRemoved %d files' % result._index)
workers.join()
def delfile(fname):
os.remove(os.path.join(dirname,fname))
我尝试了这个新脚本,但它每隔几秒就会停止一次,就像以前的情况一样。我想不通,为什么会这样。有什么想法吗?
最佳答案
假设您使用的是 Linux(其他操作系统可能不同),详情在 Linux 文档中:参见示例 https://www.kernel.org/doc/Documentation/sysctl/vm.txt .
Linux 通过创建“脏页”来处理磁盘写入,“脏页”是等待物理复制到磁盘的内存部分。物理副本稍后出现。这就是为什么 os.remove()
通常非常快:它只会在内存中创建或修改一个页面,并留下物理副本供以后使用。 (如果很快,我们执行另一个需要更改同一内存页的 os.remove()
,那么我们就赢了:不需要将此页多次写入磁盘。)
通常,称为“pdflush”的守护进程会定期唤醒以执行此写入磁盘操作。但是如果一个进程真的产生了很多脏页,那么内核会在某一时刻停止它(在随机的 os.remove()
调用中)并强制写入磁盘现在,对于部分待处理页面。它只允许程序在脏页再次低于合理阈值时继续。很可能,“pdflush”将立即继续编写其余部分。显然,如果你的程序继续产生脏页,它将再次达到上限并再次暂停。
这就是导致流程暂停的原因。这是内核工作方式的副作用。你可以忽略它:物理上,磁盘一直很忙。
关于python - 为什么我的脚本在删除数百万个文件时会定期卡住?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16722112/
我是 .NET 编程的新手,目前我正在开发一个计算机健康监控系统,该系统目前处于初级阶段。我将使用 C# 2010 并使用 WMI 查询来查询计算机信息。 在进一步开发应用程序之前,我创建了一个迷你测
我正在考虑开发一个站点,服务器将定期抓取另一个站点,以便为我的数据库中的某些条目收集内容。我的问题如下... 如何让服务器及时执行抓取? 你能让它执行 php 还是你用什么语言来执行抓取? 有什么好的
使用 JobScheduler , 我设置了一个简单的 JobService如下: @TargetApi(21) public class SimpleJobService extends JobSe
我想定期从我的 JavaFX 应用程序执行任务。该任务从远程流中提取数据。 虽然我知道我可以按照下面的建议使用计时器: JavaFX periodic background task 我相信这应该能够
上下文 我们使用多个具有相同工作流程的 git 存储库,涉及两个分支,并且想知道如何最好地将一个提交“同步”到另一个。 简单地说,我们的 git 存储库包含: 长寿枝 两个分支: master(持续开
我正在编写一个需要以高精度和低频率进行后台位置更新的应用程序。解决方案似乎是一个后台 NSTimer 任务,它启动位置管理器的更新,然后立即关闭。之前有人问过这个问题: How do I get a
我有一个包含产品的商业系统。产品被分类并且还具有属性组。 我想同步/更新将来自商务系统的产品转换为在 Orchard 中定义的产品项目的内容类型,以便将数据从商务系统推送到 Orchard 内容项目。
所以我想做的只是按时间间隔更新 Activity 的 View ,比如每秒一次。在这个特定的例子中有几个按钮,我想要改变的只是它们的文本。我在这里阅读了很多解决相同问题的问题,但我似乎比其他人更容易陷
我有一个项目的 recyclerView,(除其他外)包含从 WS 检索的游戏持续时间的时间戳。为了显示比赛的持续时间,我必须获取当前时间戳,做垫子并将其转换为可读格式(例如:5 分钟 5 秒)。只有
这可能是一个愚蠢的问题,但经过几个小时的谷歌搜索后我找不到合适的答案.. 我们有一个在 cloudbees 上运行的业务关键型应用程序。源代码已正确备份,我们希望我们的数据库也有相同的备份。 Clou
我一直在观察我的 PostgreSQL 只读副本显示复制滞后的周期性延迟。延迟似乎会增加到 30-40 分钟,然后自动下降到 0。这与 CPU 利用率 相关,但它远未接近 CPU 限制。 读取流量来自
我已完成 Keepalived + MySQL(master - master)设置。 我将 MASTER 和 BACKUP 的优先级保持不变,因为我不希望它们开始频繁抖动(一次切换 VIP 就足够了
我目前有一个图像,如果本地内容可用,它会被 ping 以仅显示一个 div。 但我认为更好的实现方式是以 30 秒为间隔定期检查 ping,如果图像未成功 ping,则显示 #offline div。
我正在尝试编写一项服务,该服务将每隔 X 分钟尝试获取设备的 GPS 位置,并在后台运行和记录,即使应用程序未处于焦点状态也是如此。 那么,是时候创建服务了。 我创建了一个服务,设置了 locatio
我在这里阅读了很多问题,但无法弄清楚问题是什么。 我正在为 Android 编写现场服务应用程序。在其中一个 Activity (MyActivity.java) 中,我有两个按钮:开始和停止。 当现
假设我有这样的代码: git fetch && git diff origin origin/master --quiet || echo "untracked" 我希望它定期运行。比方说,每秒一次
我想建立与 HTTPS 服务器(例如 google.com)的连接并定期获取新鲜内容。 我编写了简单的 HTTP 客户端: public class AsyncLoader { private
我想定期进行 wifi 扫描(可能每 5 分钟一次)并将结果导出到一个 txt 文件,以便它显示 AP SSID 和 MAC 以及接收到的信号强度。我是 Android 开发的新手,所以我只知道基础知
当手机处于 sleep 模式时,Workmanager 不会向我的服务器发送坐标。异步任务被杀死? 我使用 Workmanager (PeriodicWorkRequest) 每 15 分钟获取一次坐
目标 收集 LogCat 的定期更新并将这些文本 block 保存(附加)到 SD 卡上的文件中 问题 Log 类不提供自特定时间戳以来的更新 可能的解决方案 我的计划是定期运行类似于以下代码:htt
我是一名优秀的程序员,十分优秀!