gpt4 book ai didi

python - 读取一个大文件 vs 打开数千个文件

转载 作者:太空宇宙 更新时间:2023-11-04 05:51:24 25 4
gpt4 key购买 nike

我有 20333 个文件,总共 93M,每个文件的重量在 136b 到 956K 之间。我需要从这些制表符分隔的文件 (*.tsv) 中读取数据

我正在考虑在从 ftp 服务器下载它们时将它们附加到一个文件中(以避免打开和关闭文件)。
要打开和读取任何文件,我使用以下函数:

def read_file(file_):
with open(file_) as f:
for line in f:
yield line.split("\t")

提高性能是个好主意吗?

最佳答案

是的,将内容连接到一个文件中会提高性能——如果没有其他原因的话,因为这将允许内容流水线化。

检索一系列文件需要大量的请求/响应对;当服务器等待来自客户端的新命令时,本来可以使用的带宽被浪费了,除非增加显着的复杂性和逻辑来避免这种情况(例如,运行多个并发 FTP 连接)。

相比之下,检索大文件允许服务器不断发送内容,直到它丢失来自客户端的 ACK(告诉它放慢速度)。这将显着提高吞吐量。

关于python - 读取一个大文件 vs 打开数千个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30051191/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com