gpt4 book ai didi

python - python读取多个文件

转载 作者:太空宇宙 更新时间:2023-11-03 14:05:03 25 4
gpt4 key购买 nike

我有一个包含超过 300k 个文件的数据集,我需要读取这些文件并将其附加到字典中。

corpus_path = "data"
article_paths = [os.path.join(corpus_path,p) for p in os.listdir(corpus_path)]

doc = []
for path in article_paths:
dp = pd.read_table(path, header=None, encoding='utf-8', quoting=3, error_bad_lines=False)
doc.append(dp)

有没有更快的方法来做到这一点,因为当前的方法需要一个多小时。

最佳答案

您可以使用multiprocessing 模块。

from multiprocessing import Pool

def readFile(path):
return pd.read_table(path, header=None, encoding='utf-8', quoting=3, error_bad_lines=False)


result = list(Pool(processes=nprocs).imap(readFile, article_paths)) #nprocs = Number of processors

关于python - python读取多个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48964454/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com