python - GzipFile 中的缓冲-6ren

python - GzipFile 中的缓冲

转载作者：行者123 更新时间：2023-12-05 07:59:05

26

4

想象一下下面的简单脚本:

def reader():
    for line in open('logfile.log'):
        # do some stuff here like splitting the line or filtering etc.
        yield some_new_line

def writer(stream):
    with gzip.GzipFile('some_output_file.gz', 'w') as fh:
        for _s in stream:
            fh.write(_s+'\n')

stream = reader()
writer(stream)

非常简单 - 使用生成器读取行并将一些结果写入 gzip 文件。

但是如何加速呢？ HDD似乎是一个瓶颈。我看到我可以使用缓冲区大小进行读取 - 使用 open(file, mode, buffer) 语法。但我不太确定它是否适用于我的情况(使用生成器)。

此外，我没有找到 gzip.GzipFile 调用的任何缓冲参数。从代码来看，它基于一些缓冲类，但我没有看到任何进一步的文档。

我有一个(疯狂的？)想法来创建一个显式缓存并用它替换 open 方法 - 这样它将以更大的 block 读取文件，比如 8MB，然后按行执行拆分。至于写入，我想创建一个要写入的行列表，收集它们(比如 5000 行)，然后转储到文件中。

我是在重新发明轮子吗？我对脚本目前的性能不满意，所以我正在尝试尽可能加快它的速度。

更新。我有大约 4-5 个不同的并行工作人员在运行。他们都执行读取和写入。所以我猜 HDD 正在从一个扇区跳到另一个扇区，这就是为什么我想实现一些缓冲以定期大块转储数据的原因。

谢谢!

最佳答案

我可以建议更紧凑的代码:

def reader():
    for line in open('logfile.log'):
        # do some stuff here like splitting the line or filtering etc.
        yield some_new_line

def writer(stream):
    with gzip.GzipFile('some_output_file.gz', 'w') as fh:
        fh.writelines(stream)

writer(reader())

但是，并没有实际的加速。 Python 将管理流，但如果您不能为完整文件写入腾出内存，则加速不会很大。

gzip 压缩是最慢的一步。下面的函数只会给你 ~3% 的加速(忽略生成器的部分)。

def writer():
   f = open('logfile.log').read()
   gzip.GzipFile('some_output_file.gz', 'w').write(f)
writer()

因此，如果您需要 gzip，您将无能为力。

关于python - GzipFile 中的缓冲，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23078422/

26

4

0

文章推荐： unity3d - 将带有纹理的搅拌器对象导出到 unity3d

文章推荐： java - 未过期的谷歌日历api channel java

文章推荐： c# - 使用 Webclient 上传字符串将 JSON 字符串上传到 PHP

Android播放器继续回调，缓冲
我正在使用 MediaPlayer 在我的应用程序中播放在线 mp3 文件中的一些声音。但是，即使在播放完成后，我也会在控制台中收到一行又一行的回调和缓冲。 10-24 08:08:48.467
R 缓冲/放大多边形
我有一个简单的多边形。 dfr p = st_polygon(list(as.matrix(dfr))) > pbuf = st_buffer(p, .4) > plot(pbuf) > plot(
c++ - glMultiDrawArrays 缓冲
这可能又是一些愚蠢的问题，也许这确实是我所缺少的东西，但我很难让 glMultiDrawArrays 在 OpenGL4 中工作。我发现了很多这样的解释: for (int i = 0; i #i
algorithm - 缓冲/流式在线视频背后的算法是什么？
这仅仅是根据网络速度调整预缓冲内容量的问题吗？你是否在一开始就为此调整一次，每秒......？或者它更复杂 - 对您的网络速度记录历史进行采样并取平均值/中值并对其进行调整？最佳答案您的第二段总
c# - FFmpeg av_interleaved_write_frame 缓冲
嗨，我正在使用 FFmpeg Autogen C#。当我使用 mkv 输出作为文件并使用 h264 rtsp 流作为输入时，一切正常。编解码器是 libx264 ffmpeg.avio_open(
Python 文件 io 缓冲
我需要多次遍历几个文本文件的行。目前这是通过多个 with open("file.txt") as f: for line in f: # do something 虽然性能还
Haskell 默认 io 缓冲
昨天给同学们写了一个xinetd小练习:做一个反向回显程序。为了学习新东西，我尝试实现一个 Haskell 解决方案。琐碎的main = forever $ interact reverse不起作用
opengl - 用于遮挡剔除的分层 Z 缓冲
我正在阅读《实时渲染第三版》中的遮挡剔除部分，但我无法理解它是如何工作的。一些问题: “Z 金字塔”有何贡献？为什么我们需要多种分辨率的 Z 缓冲区？在书中，它的显示如下(左侧): 八叉树结构与用于一
java - 如何知道何时停止 InputStream 缓冲
我通过串行端口与设备通信。我已成功获取 InputStream 并读取设备发送的内容。但问题是，我根本不知道何时停止阅读并继续执行另一项任务。这是简化的代码: inputStream = ser
go - 缓冲 channel 阻止执行
我有以下代码: func (q *Queue) GetStreams(qi *QueueInfo) { channel := make(chan error, len(qi.AudioChun
iphone - MPMusicPlayerController 缓冲/预加载
在我调用 -play 之前，有没有办法让 MPMusicPlayerController 缓冲内容？还是在您设置队列时默认执行此操作？ AVAudioPlayer 有 -prepareToPlay 方
C# 缓冲 GZipStream 压缩
我正在编写一个数据库备份函数，从System.Diagnostics.Process 对象读取StandardOutput (StreamReader) 属性。我已成功写入普通文件。 //This
c# - 缓冲 PropertyChanged 事件
我有一个 wpf 应用程序，其中所有 viewModel 都继承自实现 INotifyPropertyChanged 的类 NotifyPropertyChangeClass(见下文)。我想限制
javascript - 用 LatestFrom 缓冲
我需要类似于 withLatestFrom 的东西，对应于下图: ---------A-----------------B-- -1-2-3------4------5-6-7-8---- -----
java - 缓冲 & 修改 OutputStream
有没有办法缓冲 OutputStream，在返回之前修改它？这是我的代码片段: public ServletOutputStream getOutputStream() throws IOExcept
android - 如何在android中实现协议(protocol)缓冲
目前我们有实现服务器通信协议(protocol)缓冲的需求。如果有人对此有任何意见，他们可以向我提供任何意见吗。最佳答案请查看以下 Protocol Buffer 链接。 http://code.
java - 缓冲 MySQL 查询或建立多个连接？
所以我目前正在开发一个 Java 应用程序，该应用程序应该将特定事件记录到数据库中。我希望每分钟最多有 15 到 20 次插入，基本上我想知道我是否应该为每个插入语句建立一个新连接，或者只要应用程序正
c++ - 两个线程之间是否有内存泄漏(缓冲，清空)
请考虑以下代码，包括两个线程 buffering_thread(用一条消息填充缓冲区指针)和 sending_thread(清空缓冲区): #include "msg.cpp" msg * buffe
html - 按顺序在线播放视频文件，视频之间没有延迟/缓冲
是否可以在线播放由两个或多个视频文件组成的视频？由于我原来的帖子不够清楚，这里有扩展的解释和问题。我的站点托管在 Linux/Apache/PHP 服务器上。我有 FLV/F4V 格式的视频文件。
java - RxJava 缓冲 - 忽略零项
这是我用于缓冲和转换传入事件的代码: public Publisher> logs(String eventId) { ConnectableObservable connectableObs

首页

博学

6Ren·AI

商城

python - GzipFile 中的缓冲