gpt4 book ai didi

python - 在python中使用多线程读取txt文件

转载 作者:IT老高 更新时间:2023-10-28 20:54:52 25 4
gpt4 key购买 nike

我正在尝试在 python 中读取一个文件(扫描它的行并查找术语)并编写结果 - 比如说,每个术语的计数器。我需要对大量文件(超过 3000 个)执行此操作。有可能做到多线程吗?如果是,怎么做?

所以,场景是这样的:

  • 读取每个文件并扫描其行
  • 将计数器写入我读过的所有文件的同一个输出文件。

第二个问题是,它是否提高了读写速度。

希望它足够清楚。谢谢,

罗恩。

最佳答案

我同意@aix,multiprocessing 绝对是要走的路。无论您将受到 i/o 限制——无论您运行了多少并行进程,您都只能如此快速地阅读。但是很容易一些加速。

考虑以下情况(input/是一个目录,其中包含来自 Project Gutenberg 的多个 .txt 文件)。

import os.path
from multiprocessing import Pool
import sys
import time

def process_file(name):
''' Process one file: count number of lines and words '''
linecount=0
wordcount=0
with open(name, 'r') as inp:
for line in inp:
linecount+=1
wordcount+=len(line.split(' '))

return name, linecount, wordcount

def process_files_parallel(arg, dirname, names):
''' Process each file in parallel via Poll.map() '''
pool=Pool()
results=pool.map(process_file, [os.path.join(dirname, name) for name in names])

def process_files(arg, dirname, names):
''' Process each file in via map() '''
results=map(process_file, [os.path.join(dirname, name) for name in names])

if __name__ == '__main__':
start=time.time()
os.path.walk('input/', process_files, None)
print "process_files()", time.time()-start

start=time.time()
os.path.walk('input/', process_files_parallel, None)
print "process_files_parallel()", time.time()-start

当我在我的双核机器上运行它时,有明显的(但不是 2 倍)加速:

$ python process_files.py
process_files() 1.71218085289
process_files_parallel() 1.28905105591

如果文件足够小以适合内存,并且您有很多不受 i/o 限制的处理要完成,那么您应该会看到更好的改进。

关于python - 在python中使用多线程读取txt文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7776293/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com