gpt4 book ai didi

python - 在python中批处理非常大的文本文件

转载 作者:行者123 更新时间:2023-12-04 09:39:32 24 4
gpt4 key购买 nike

我正在尝试将一个非常大的文本文件(大约 150 GB)批处理成几个较小的文本文件(大约 10 GB)。

我的一般流程是:

# iterate over file one line at a time
# accumulate batch as string
--> # given a certain count that correlates to the size of my current accumulated batch and when that size is met: (this is where I am unsure)
# write to file

# accumulate size count

我有一个粗略的指标来计算何时进行批处理(当达到所需的批处理大小时),但我不太清楚我应该如何计算给定批处理写入磁盘的频率。例如,如果我的批处理大小是 10 GB,我假设我将需要迭代写入而不是将整个 10 GB 的批处理保存在内存中。我显然不想写太多,因为这可能非常昂贵。

您是否有任何粗略的计算或技巧可以用来计算何时写入磁盘以完成诸如此类的任务,例如大小与内存之类的?

最佳答案

假设您的大文件是简单的非结构化文本,即这对像 JSON 这样的结构化文本没有好处,这里有一个读取每一行的替代方法:读取输入文件的大二进制位直到达到您的 block 大小,然后读取几行, 关闭当前输出文件并继续下一个。

我将此与使用@tdelaney 代码逐行进行比较,该代码采用与我的代码相同的 block 大小 - 该代码需要 250 秒才能将 12GiB 输入文件拆分为 6x2GiB block ,而这需要大约 50 秒,所以可能快五倍并且看起来 I/O 绑定(bind)在我的 SSD 上运行 >200MiB/s 读写,其中逐行运行 40-50MiB/s 读写。

我关闭了缓冲,因为没有太多意义。 bite 的大小和缓冲设置可以调整以提高性能,没有尝试任何其他设置,因为对我来说它似乎是 I/O 限制。

import time

outfile_template = "outfile-{}.txt"
infile_name = "large.text"
chunksize = 2_000_000_000
MEB = 2**20 # mebibyte
bitesize = 4_000_000 # the size of the reads (and writes) working up to chunksize

count = 0

starttime = time.perf_counter()

infile = open(infile_name, "rb", buffering=0)
outfile = open(outfile_template.format(count), "wb", buffering=0)

while True:
byteswritten = 0
while byteswritten < chunksize:
bite = infile.read(bitesize)
# check for EOF
if not bite:
break
outfile.write(bite)
byteswritten += len(bite)
# check for EOF
if not bite:
break
for i in range(2):
l = infile.readline()
# check for EOF
if not l:
break
outfile.write(l)
# check for EOF
if not l:
break
outfile.close()
count += 1
print( count )
outfile = open(outfile_template.format(count), "wb", buffering=0)

outfile.close()
infile.close()

endtime = time.perf_counter()

elapsed = endtime-starttime

print( f"Elapsed= {elapsed}" )

注意我还没有详尽地测试它不会丢失数据,尽管没有证据表明它确实丢失了任何你应该自己验证的东西。

通过检查 block 末尾的时间以查看还有多少数据要读取,可能有助于增加一些稳健性,这样您就不会以最后一个输出文件的长度为 0(或比 bitesize 更短)而告终)

HTH谷仓

关于python - 在python中批处理非常大的文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62394373/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com