gpt4 book ai didi

python - 需要优化以在大文件夹中更快地搜索

转载 作者:行者123 更新时间:2023-12-01 05:49:17 24 4
gpt4 key购买 nike

我有一个包含很多文件的文件夹,我需要优化搜索速度,因为我有超过 1k 个不同的文件要搜索,实际上我正在使用这个:

for path,dirs,files in os.walk('M:/MYFOLDER'):

但是在所有文件夹中搜索需要很长时间(超过30分钟)(因为它逐个文件搜索),但“Windows搜索”需要20秒才能找到它。

您知道一些优化搜索并使其更快的技巧吗?

感谢您的任何提示。

最佳答案

你在的土地Information Retrieval ,而不是每次都从头开始搜索 - 做搜索引擎所做的事情:

  • Index您的数据(预处理,仅进行一次或偶尔进行一次 - 这假设文档集合相对稳定 - 并且与搜索数量相比变化很小)
  • 每次出现查询时 - 在索引中搜索以快速找到答案。

这种方法不仅可以让您稍后返回相关文档,还可以让您通过使用一些已经经过验证的启发式方法(例如 tf-idf model)将它们从最相关到​​最不相关进行排名。 .

有一个开源项目,名为Lucene ,其中还有 python binding这可以帮助您实现。 Lucene 是一个成熟的广泛使用(并且经过广泛测试)的信息检索库(例如用于 eclipse 搜索)

<小时/>

P.S. 如果您发现自己对信息检索进一步感兴趣,我建议您阅读 Manning 的 Introduction to Information Retrieval - 它将让您对该领域有深入的了解 - 但对于仅仅应用您的任务来说,这实际上并不是强制性的。

关于python - 需要优化以在大文件夹中更快地搜索,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15005681/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com