python - 使用索引以递归方式快速获取目录中的所有文件-6ren

python - 使用索引以递归方式快速获取目录中的所有文件

转载作者：行者123 更新时间：2023-11-28 19:41:12

24

4

尝试 #2:

人们似乎并不理解我要做什么。让我看看是否可以更清楚地说明:

1) 读取文件列表比遍历目录快得多。

2) 所以让我们有一个函数来遍历一个目录并将结果列表写入一个文件。现在，将来，如果我们想获取该目录中的所有文件，我们只需读取该文件即可，而无需遍历目录。我称这个文件为索引。

3) 显然，随着文件系统的改变，索引文件变得不同步。为了克服这个问题，我们有一个单独的程序可以挂接到操作系统中，以监控文件系统的变化。它将这些更改写入称为监视器日志的文件。在我们读取特定目录的索引文件后，我们立即使用监控日志将各种更改应用于索引，以便它反射(reflect)目录的当前状态。

因为读取文件比遍历目录便宜得多，所以这应该比第一次调用后遍历所有调用要快得多。

原帖:

我想要一个函数，它将递归地获取任何给定目录中的所有文件，并根据各种参数过滤它们。我希望它快一点——比如，比简单地沿着方向走快一个数量级。我更喜欢用 Python 来做。跨平台是可取的，但 Windows 是最重要的。

以下是我的想法:

我有一个名为 all_files 的函数:

def all_files(dir_path, ...parms...):
    ...

我第一次调用此函数时，它将使用 os.walk 构建所有文件的列表，以及有关文件的信息，例如它们是否隐藏、符号链接(symbolic link)等。我将写入此数据到目录中名为“.index”的文件。在随后调用 all_files 时，将检测到 .index 文件，我将读取该文件而不是遍历目录。

这留下了索引在添加和删除文件时不同步的问题。为此，我将有第二个程序在启动时运行，检测整个文件系统的所有更改，并将它们写入名为“mod_log.txt”的文件。它通过 Windows 信号检测变化，如描述的方法 here .该文件每行将包含一个事件，每个事件由受影响的路径、事件类型(创建、删除等)和时间戳组成。 .index 文件也将具有上次更新时间的时间戳。在我读取 all_files 中的 .index 文件后，我将尾随 mod_log.txt 并查找在 .index 文件中的时间戳之后发生的任何事件。它将获取这些最近发生的事件，找到任何适用于当前目录的事件，并相应地更新 .index。

最后，我将获取所有文件的列表，根据各种参数对其进行过滤，并返回结果。

你觉得我的方法怎么样？有更好的方法吗？

编辑:

检查这段代码。通过递归遍历读取缓存列表，我发现速度大大提高。

import os
from os.path import join, exists
import cProfile, pstats

dir_name = "temp_dir"
index_path = ".index"

def create_test_files():
    os.mkdir(dir_name)
    index_file = open(index_path, 'w')
    for i in range(10):
        print "creating dir: ", i
        sub_dir = join(dir_name, str(i))
        os.mkdir(sub_dir)
        for i in range(100):
            file_path = join(sub_dir, str(i))
            open(file_path, 'w').close() 
            index_file.write(file_path + "\n")
    index_file.close()
#

#  0.238 seconds
def test_walk():            
    for info in os.walk("temp_dir"):
        pass

#  0.001 seconds
def test_read():
    open(index_path).readlines()

if not exists("temp_dir"):
    create_test_files()

def profile(s):
    cProfile.run(s, 'profile_results.txt')
    p = pstats.Stats('profile_results.txt')
    p.strip_dirs().sort_stats('cumulative').print_stats(10)

profile("test_walk()")
profile("test_read()")

最佳答案

不要试图复制文件系统已经完成的工作。你不会比现在做得更好。

你的方案在很多方面都有缺陷，它不会让你有一个数量级的改进。

缺陷和潜在问题:

您将始终使用文件系统的快照。你永远不会确切地知道它与现实并没有明显的脱节。如果这在您的应用程序的工作参数范围内，那就没问题了。

文件系统监控程序仍然需要递归遍历文件系统，因此工作仍在进行中。

为了提高缓存的准确性，您必须提高文件系统监视器运行的频率。它运行得越多，您实际节省的时间就越少。

当索引文件被文件系统监控程序更新时，您的客户端应用程序可能无法读取索引文件，因此您会在客户端等待索引可读时浪费时间。

我可以继续。

事实上，如果您不关心可能与现实脱节的文件系统快照，我认为您最好将索引保存在内存中并使用应用程序本身。这将清除否则会出现的任何文件争用问题。

关于python - 使用索引以递归方式快速获取目录中的所有文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2059912/

24

4

0

文章推荐： python - 如何将 '\xff\xfe' 转义为可读字符串

文章推荐： ios - UILabel 未显示在自定义 UIView 屏幕中

文章推荐： javascript - (HighCharts) 手动 mouseOver 后 mouseOut 上的颜色恢复

快速/更改循环中变量的名称
如何更改循环中变量的名称？比如 number1 、 number2 、 number3 、 number4 ？ var array = [2,4,6,8] func ap ( number1: Int
iOS延迟更改背景颜色(快速)
我想设置 View 的背景颜色并在一定延迟后将其更改为另一种颜色。这是我的尝试方式: print("setting color 1") self.view.backgroundColor = UICo
快速 session 在请求之间不持久
我在使用 express-session 时遇到问题。 session 数据不会在请求之间持续存在。正如您在下面的代码中看到的那样，/join 路由设置了一些 session 属性，但是当 /sur
快速 Steam 叶环
我试图从叶渲染器获得一个非常简单的结果，用于快速 Steam 的 for 循环。我正在上传叶文件 HTML，因为它不接受此处格式正确的代码 - 下面的pizza.swift代码- import
performance - 快速、简单的程序员编辑器
你们中有人有什么好的链接可以与我分享吗？我正在寻找一个 FAST 程序员编辑器，它可以非常快速地打开包含超过 100, 000 行代码的文件？我目前正在使用记事本自动取款机，打开一个 29000 行长
r - 快速、高效地循环数百万行并匹配列
我现在正在处理眼动追踪数据，因此拥有一个巨大的数据集(想想数百万行)，因此希望有一种快速的方法来完成此任务。这是它的简化版本。数据告诉您眼睛在每个时间点正在查看的位置以及我们正在查看的每个文件。 X
ios - 选择提示音-快速
我是新手，想为计时器或其他设备选择提示音。如何打开此列表，以选择其中一种声音？ Alert sound list 最佳答案您将无法在应用中使用系统声音。但是，您可以包括自己的声音文件，并将其显示
arrays - 将顺序字符串构建到数组中(快速)
我编写了以下代码来构建具有顺序字符串的数组。它的工作方式与我预期的一样，但我希望它能更快地运行。有没有更有效的方法在PowerShell中产生我想要的结果？我是PowerShell的新手，非常感谢
r - 快速、简洁地生成唯一矩阵行的有序频率计数的方法
我有一个包含一些非唯一行的矩阵，例如: x 尝试 y <- rle(apply(x, 1, paste, collapse = " ")) # y$lengths is the vector con
ios - 键盘打开时移动菜单(快速)
我的函数“keyboardWillShown”有问题。所以我想要的是菜单打开时，菜单正好出现在键盘上方。它可以在Iphone 8 plus，8、7、6上完美运行。但是，当我在模拟器上运行Iphone
ios - 第二次API调用后应用崩溃(快速)
我正在尝试通过Swift 5中的HTTP get方法从API提取数据。它在启动时成功加载了数据，但是当我刷新页面时，它说“索引超出范围”，这是因为数据是不再会在我的日志中读取，因此索引中没有任何内容。
ios - 将时间戳转换为其他时区(快速)
我想做什么: 从我的数据库中获取时间戳并将其转换为用户的时区。我的代码: let tryItNow = "\(model.timestampName)" let format = D
ios - 查找字符串的宽度(快速)
给定字体名称和字体大小，如何查找字符串的宽度(CGFloat)？ (目标是将UIView的宽度设置为足以容纳字符串的宽度。) 我有两个字符串:一个重复“1”，重复36次，另一个重复“M”，重复36次。
ios - JSON解析(快速)
我正在尝试解析此JSON ["Items": ( { AccountBalance = 0; AlphabetType = 3; Description = "\U0631\U
ios - 根据自动布局更改UILabel中的字体大小(快速)
我在UINavigationBar内放置了一个UILabel。我想根据navigationBar的高度增加该标签的字体大小。当navigationBar很大时，我希望字体大小更大；当滚动并缩小nav
ios - 消除数字中的多个小数点(快速)
我想将用户输入限制为仅有效数字并使用以下内容: func textView(_ textView: UITextView, shouldChangeTextIn range: NSRange, rep
C# - 图像比较(快速)
目前我有一个包含超过 100.000 张图像的数据库，它们大小不一或类似，但我想为我的公司制作以下内容: 我插入/上传一张图片，系统返回最有可能相同的图片。我不知道使用什么算法，但它需要快速。我可以预
ios - 按下按钮时发生的操作 - 快速
在我的 swift 项目中，我有一个按钮，我想在标签上打印按下该按钮的时间。如何解决这个问题？最佳答案添加到DHEERAJ的答案中，您只需在func press(sender: UIButton
arrays - 我想从解析加载数组数据(快速)
我必须发表评论，尝试在解析中导入数组。然而，有一个问题。当我尝试从 Parse 加载数组时，我的输出是 ("Blah","Blah","Blah")这是一个元组...而不是一个数组 TT... 如何
swift - 简化嵌套 if 快速
我的应用程序有一个名为 MyDevice 的类，我用它来与硬件通信。该硬件是可选的，实例变量也是可选的: var theDevice:MyDevice = nil 然后，在应用程序中，我必须初始化设备

首页

博学

6Ren·AI

商城

python - 使用索引以递归方式快速获取目录中的所有文件