c# - 如何在非常大的输入上没有中间文件的情况下使用 GZipStream 进行多线程压缩/解压缩-6ren

c# - 如何在非常大的输入上没有中间文件的情况下使用 GZipStream 进行多线程压缩/解压缩

转载作者：太空宇宙更新时间：2023-11-03 22:45:24

25

4

我想编写一个使用 NET 3.5 和 GZipStream 库执行多线程压缩/解压缩的程序。
输入文件非常大(假设有数百 GB)
我想在没有任何中间文件的情况下实现这一点。这是我最初的方法，但要求发生了变化。

我正在考虑以下方法，并想验证这在纸面上看起来是否不错:

从源文件中读取并将其拆分为内存中大小不变的 block 。
由于内存有限，请跟踪线程数。
每个 block 都由单独的线程在内存中压缩。
这些压缩 block 以正确的顺序被插入队列。
有一个线程从队列中读取并将其连接到输出文件中。
还将一些有关压缩 block 的元数据存储在某个地方，这些元数据稍后将放入 header 中。我想用它来解压。

完成上述操作后，我对多线程解压的想法将是:

读取有关串联 block 的元数据文件。
以元数据定义的 block 的形式从压缩文件中读取数据。
每个 block 都由内存中的单独线程解压缩。
这些解压后的 block 按正确的顺序添加到队列中。
有一个线程将解压缩的 block 连接成一个统一的输出文件。

上述说法是否合理？

最佳答案

当然，那会很好用。碰巧的是，有效 gzip 文件的串联也是一个有效的 gzip 文件。每个不同的可解压缩流称为 gzip 成员。您的元数据只需要文件中每个流开始的偏移量。

gzip header 的额外 block 限制为 64K 字节，因此这可能会限制 block 的大小，例如大约几十到一百兆字节。出于另一个原因，我建议您要压缩的数据 block 每个至少要有几兆字节——以避免压缩效率降低。

串联的一个缺点是您无法全面检查输入的完整性。例如，如果您以某种方式弄乱了成员的顺序，那么在解压时将不会检测到这一点，因为无论顺序如何，每个成员的完整性检查都会通过。因此，您可能希望包括对未压缩数据的全面检查。一个例子是整个未压缩数据的 CRC，它可以使用 zlib 的 crc32_combine() 从成员的 CRC 中计算出来。

我很想知道在您的情况下，您是否从并行解压缩中获得了显着的加速。解压缩通常足够快，以至于它在正在读取的大容量存储设备上受到 I/O 限制。

关于c# - 如何在非常大的输入上没有中间文件的情况下使用 GZipStream 进行多线程压缩/解压缩，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50234606/

25

4

0

文章推荐： python - 在等高线内寻找等高线

文章推荐： css - 如何更改 xPage 组合框下拉箭头的背景颜色？

文章推荐： c# - 重构具有内部静态属性的结构

scala - Scala中列表的模式匹配结束/中间
有人可以给我一个更简单的以下代码的解决方案(它正在展开给定结构 0xFC :: len :: payload :: ... :: 0x0A :: 0x0D 的整数列表): object Payload
SSL 中间 SHA2
我已经在我的网站上安装了 SSL 证书，但 intermediate.crt 无法正常工作。任何 SSL 检查器(例如 GeoTrust Checker)都告诉我，缺少中间 key 。网站上已经使用了
html - 如何将图像垂直和水平放置在中心/中间
如何让图像从这个框的中间开始？ (中间纵横) 最佳答案有几种方法可以做到这一点，如果它需要在所有浏览器(IE7+ 和其他浏览器)中工作，你需要做不同的事情来让它在某些情况下工作。使用绝对位置
CSS:最小高度和垂直对齐:中间
如何强制 min-height 和 vertical-align:middle 为 td 元素或其内部元素工作？最佳答案 td 元素上的 height 等同于 min-height，因为如果需要，表
jquery - 滚动到元素并将其放置在 View 中间
我正在尝试自动滚动到订单簿的中间行。我有 orderBook div，其中放置了带有 orderBook 的表。该表的其中一行有一个 id middleRow。我想做的是滚动该行并将其放置在 ord
javascript - 计算变换原点以将图像缩放到视口(viewport)中间
我正在尝试在 javascript 中计算绝对定位元素的 transform-origin 属性，以便它们在悬停时填充整个视口(viewport)。我尝试通过 x 除以窗口宽度和 y 除以窗口高度来
regex - 删除开头、中间、结尾的空格
我有休闲字符串 ' this is my string ' 是否可以删除开头和结尾的所有空格，只在单词之间留一个空格。要选择我使用过的所有空间: SELECT regexp_replace('
mysql - 中间 SQL 表 : What for?
我正在设法创建我的第一个复杂的 J2E 解决方案，并且在每个教程中我都发现了某种中间表的用法，如下所示: 表:用户、用户角色、角色虽然逻辑会简单地向用户表添加一个键来引用它在角色表上的角色，但为什么要
jquery - 如何将图像元素定位在视口(viewport)中间？
我正在寻找以下解决方案。我想定位一个图像元素，例如在中间。所以高度是视口(viewport)的高度，宽度会自动设置，图像的中间应该在视口(viewport)宽度的中间。我搜索的一个例子就像下面的网
html - 中间 Bootstrap 网格类
我正在设计一种布局，它更像是注册用户的个人仪表板。我让它变得简单，使用基本的 2 列网格，一个用于侧边栏，一个用于主要内容。因为，例如，80% 的网站使用将发生在一个单独的子系统中，在无 chrom
html - 我试图将文本居中放置在我的页面 HTML 中间
我有三个不同的 div 标签(不在彼此内部)和代码，所以它有一个把单词放在左边、中间或右边，但中心非常偏离中心。这是 HTML 代码: .desc { float: right; color:
CSS 中间 div 高度
我有以下CSS http://jsbin.com/azivip/75/edit我想让黄色的 div 高度填充蓝色和绿色 div 之间的空间。使用高度继承似乎使 div 超出了绿色 div。有什么想法
html - 使用相对和绝对属性将元素定位在 div 中间
我不得不在其父元素的中间放置一些文本。我用下面的代码实现了它: #div1 { position: relative; margin: 0; padding: 0; } #div2 {
中间/链证书的 SSL 证书错误
发现一个使用合法证书(由thawte 签名)的网站，但所有浏览器都会拒绝它。我不明白为什么。thawte 的支持告诉我一个域有两个证书，然后将这个 https://www.sslshopper[dot
ssl - 中间 CA 的证书链问题
我正在尝试使用 OpenSSL 创建证书链，但出于某种原因，当我在我的计算机上安装我的根 CA 并尝试验证证书链时，它总是告诉我它找不到证书的颁发者.为了让事情发生，我必须安装中间 CA，这是没有意义
http - 中间 HTTP 缓存是什么以及在哪里
我看到 REST 的一大好处是依赖 HTTP 缓存。我不是在争论这个，而是完全认同这个想法。但是，我从来没有看到对中间 HTTP 缓存的更深入的解释。如果我将 Cache-control heade
html - 中间 Angular 左右双按钮
查看此图片 Facebook Messenger Android App Buttons ( MESSENGER\ACTIVE ) 我怎样才能做到这一点？详细信息:- 带有 2px 红色边框的 di
html - 中间 CSS 中带有白线的文本
我的任务是制作漂亮的文本，在文本中间加一条白线，如下图所示。是否可以使用 css 来实现？这是 Fiddle .container{ height:200px; width:400px;
python - 有没有办法比较阿拉伯字符而不考虑它们的初始/中间/最终形式？
在拉丁文字中，字母有大写和小写形式。在 Python 中，如果你想比较两个字符串而不考虑它们的大小写，你可以使用 'string'.upper() 或 'string'.lower() 将它们转换为相
linux - 在没有临时(中间)文件的情况下处理同一文件
我正在使用 awk 对文件进行一些文本处理。例如删除尾随空格。 awk '{gsub(/ +$/, "")} {print $0}' filename 这很好用。但是当我将输出重定向到原始文件时。它变

首页

博学

6Ren·AI

商城

c# - 如何在非常大的输入上没有中间文件的情况下使用 GZipStream 进行多线程压缩/解压缩