c# - 日志文件的并行 GZip 解压缩 - 调整 MaxDegreeOfParallelism 以获得最高吞吐量-6ren

c# - 日志文件的并行 GZip 解压缩 - 调整 MaxDegreeOfParallelism 以获得最高吞吐量

转载作者：可可西里更新时间：2023-11-01 07:56:44

我们每天有多达 30 GB 的 GZip 日志文件。每个文件包含 100.000 行，压缩后大小在 6 到 8 MB 之间。已剥离解析逻辑的简化代码利用了 Parallel.ForEach 循环。

在双 NUMA 节点、32 个逻辑 CPU 盒(Intel Xeon E7-2820 @ 2 GHz)上，MaxDegreeOfParallelism 处理峰值的最大行数:

using System;

using System.Collections.Concurrent;

using System.Linq;
using System.IO;
using System.IO.Compression;

using System.Threading.Tasks;

namespace ParallelLineCount
{
    public class ScriptMain
    {
        static void Main(String[] args)
        {
            int    maxMaxDOP      = (args.Length > 0) ? Convert.ToInt16(args[0]) : 2;
            string fileLocation   = (args.Length > 1) ? args[1] : "C:\\Temp\\SomeFiles" ;
            string filePattern    = (args.Length > 1) ? args[2] : "*2012-10-30.*.gz";
            string fileNamePrefix = (args.Length > 1) ? args[3] : "LineCounts";

            Console.WriteLine("Start:                 {0}", DateTime.UtcNow.ToString("yyyy-MM-ddTHH:mm:ss.fffffffZ"));
            Console.WriteLine("Processing file(s):    {0}", filePattern);
            Console.WriteLine("Max MaxDOP to be used: {0}", maxMaxDOP.ToString());
            Console.WriteLine("");

            Console.WriteLine("MaxDOP,FilesProcessed,ProcessingTime[ms],BytesProcessed,LinesRead,SomeBookLines,LinesPer[ms],BytesPer[ms]");

            for (int maxDOP = 1; maxDOP <= maxMaxDOP; maxDOP++)
            {

                // Construct ConcurrentStacks for resulting strings and counters
                ConcurrentStack<Int64> TotalLines = new ConcurrentStack<Int64>();
                ConcurrentStack<Int64> TotalSomeBookLines = new ConcurrentStack<Int64>();
                ConcurrentStack<Int64> TotalLength = new ConcurrentStack<Int64>();
                ConcurrentStack<int>   TotalFiles = new ConcurrentStack<int>();

                DateTime FullStartTime = DateTime.Now;

                string[] files = System.IO.Directory.GetFiles(fileLocation, filePattern);

                var options = new ParallelOptions() { MaxDegreeOfParallelism = maxDOP };

                //  Method signature: Parallel.ForEach(IEnumerable<TSource> source, Action<TSource> body)
                Parallel.ForEach(files, options, currentFile =>
                    {
                        string filename = System.IO.Path.GetFileName(currentFile);
                        DateTime fileStartTime = DateTime.Now;

                        using (FileStream inFile = File.Open(fileLocation + "\\" + filename, FileMode.Open))
                        {
                            Int64 lines = 0, someBookLines = 0, length = 0;
                            String line = "";

                            using (var reader = new StreamReader(new GZipStream(inFile, CompressionMode.Decompress)))
                            {
                                while (!reader.EndOfStream)
                                {
                                    line = reader.ReadLine();
                                    lines++; // total lines
                                    length += line.Length;  // total line length

                                    if (line.Contains("book")) someBookLines++; // some special lines that need to be parsed later
                                }

                                TotalLines.Push(lines); TotalSomeBookLines.Push(someBookLines); TotalLength.Push(length);
                                TotalFiles.Push(1); // silly way to count processed files :)
                            }
                        }
                    }
                );

                TimeSpan runningTime = DateTime.Now - FullStartTime;

                // Console.WriteLine("MaxDOP,FilesProcessed,ProcessingTime[ms],BytesProcessed,LinesRead,SomeBookLines,LinesPer[ms],BytesPer[ms]");
                Console.WriteLine("{0},{1},{2},{3},{4},{5},{6},{7}",
                    maxDOP.ToString(),
                    TotalFiles.Sum().ToString(),
                    Convert.ToInt32(runningTime.TotalMilliseconds).ToString(),
                    TotalLength.Sum().ToString(),
                    TotalLines.Sum(),
                    TotalSomeBookLines.Sum().ToString(),
                    Convert.ToInt64(TotalLines.Sum() / runningTime.TotalMilliseconds).ToString(),
                    Convert.ToInt64(TotalLength.Sum() / runningTime.TotalMilliseconds).ToString());

            }
            Console.WriteLine();
            Console.WriteLine("Finish:                " + DateTime.UtcNow.ToString("yyyy-MM-ddTHH:mm:ss.fffffffZ"));
        }
    }
}

这是结果的总结，在 MaxDegreeOfParallelism = 8 处有一个明显的峰值:

enter image description here

CPU 负载(此处汇总显示，大部分负载都在单个 NUMA 节点上，即使 DOP 在 20 到 30 范围内):

enter image description here

我发现使 CPU 负载超过 95% 标记的唯一方法是将文件拆分到 4 个不同的文件夹并执行相同的命令 4 次，每次针对所有文件的一个子集。

有人能找到瓶颈吗？

最佳答案

一个问题很可能是默认的 FileStream 构造函数使用的缓冲区大小较小。我建议您使用更大的输入缓冲区。如:

using (FileStream infile = new FileStream(
    name, FileMode.Open, FileAccess.Read, FileShare.None, 65536))

默认缓冲区大小为 4 KB，线程会多次调用 I/O 子系统来填充其缓冲区。 64K 的缓冲区意味着您进行这些调用的频率会大大降低。

我发现缓冲区大小介于 32K 和 256K 之间可提供最佳性能，而 64K 是我不久前进行一些详细测试时的“最佳点”。大于 256K 的缓冲区大小实际上开始降低性能。

此外，虽然这不太可能对性能产生重大影响，但您可能应该将那些 ConcurrentStack 实例替换为 64 位整数并使用 Interlocked.Add 或 Interlocked.Increment 更新它们。它简化了您的代码并消除了管理集合的需要。

更新:

重新阅读你的问题描述，我对这个陈述感到震惊:

The only way I've found to make CPU load cross 95% mark was to split the files across 4 different folders and execute the same command 4 times, each one targeting a subset of all files.

对我来说，这表明打开文件时存在瓶颈。就好像操作系统在目录上使用互斥锁一样。即使所有数据都在缓存中并且不需要物理 I/O，进程仍然需要等待这个锁。文件系统也可能正在写入磁盘。请记住，无论何时打开文件，它都必须更新文件的上次访问时间。

如果 I/O 确实是瓶颈，那么您可以考虑让一个线程只加载文件并将它们填充到 BlockingCollection 或类似的数据结构中，这样处理线程就不会不必为了锁定目录而相互竞争。您的应用程序成为具有一个生产者和 N 个消费者的生产者/消费者应用程序。

关于c# - 日志文件的并行 GZip 解压缩 - 调整 MaxDegreeOfParallelism 以获得最高吞吐量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13176529/

文章推荐： mysql - 如何仅合并多个表中的一列？

文章推荐： MySQL - 想要从两个 SELECT 语句中减去两个 SUM() 值

文章推荐： android - list 中缺少 uses-sdk

文章推荐： mysql - 在关系数据库中存储 'metadata' 的正确方法是什么？

Javascript 调整
我是 Javascript 新手，所以请原谅基本代码。有什么方法可以让我使用用户输入的指定调整来打印代码？ height: width: 最佳答案为按钮
javascript - 调整 A 框架中的屏幕截图大小
我有一个带有 A 框架的场景，我正在使用方法 getCanvas 来获取屏幕截图并将其发送到 PHP。有没有办法调整 getCanvas 图像大小？因为默认的是 4096x2048，我需要它更小。如果
Oracle 调整/分析表
安排自动“分析表”的方法是什么。当大量数据通过插入和删除发生更改时，是否可以请求自动“分析表”？参数化自动分析表过程的方法是什么，即设置何时应该触发的规则。最佳答案您使用的是哪个版本的 Oracl
C - 调整/放大图像
我只是想说，我是 C 语言的新手。好吧，除此之外，我在圣诞假期的任务是编写一个以各种方式操作 PNG 图像的程序。我已经完成了大部分事情，但是在尝试编写放大图像的程序时遇到了问题。我已经尝试过了，并且
postgresql - Postgres 调整
在 Postgres 中编写更快查询的有效方法是什么？请不要包括一般良好的数据库实践(例如使用索引或规范化)。我正在寻找像派生表比子查询工作得更快或使用 python 字符串函数似乎比 pgsql 字
用于对齐页面元素的 Css 调整？
我不知道自己做了什么，但我要么将页眉和导航向右移动，要么将页面的其余部分向左移动。使用 tw Bootstrap 。我想不通。我对它进行了调试并查看了我的 css 编辑，没有看到任何负边距(我怀疑是这
html - 调整/缩放内部容器中的字体
我希望能够增加默认字体大小，但只能在特定的 DIV 内。很明显，这似乎正是 ems 所针对的那种情况。我的问题是我只想增加字体大小，而不影响使用em设置大小的其他内容，例如填充和边距。这可能看起来
algorithm - 感知器算法 - 调整
我正在我的大学上数据挖掘类(class)。我真的不明白这个问题。谁能帮我理解一下？最佳答案重要性权重让您了解在采样时找到特定数据点的频率。您可以使用它来增加训练数据集。例如，如果您只有两个数据点:
C++ 调整/优化
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
c - 调整 argVector
我的部分程序如下所示: char *argVector[] = {"./doTasks","0", "1", "3", NULL}; int numChild = 3; int temp; char
c++ - 调整 Qt 窗口大小时出现闪烁的白色区域
我在调整 QWindow 大小时观察到一个奇怪的行为。当我调整窗口大小时使宽度和高度都增加或减少时，窗口不会以白色背景闪烁。但是当我增加宽度同时减小高度(或反之亦然)时，窗口会闪烁并暂时用白色填充新的
调整 ggplot geom_dotplot 的大小
我在使用 ggplot2 创建图形时遇到问题。我正在使用带有中心堆叠的 geom_dotplot 来显示我的数据，这些数据是 4 个类别的离散值。出于审美原因，我想自定义点的位置，这样沿 y 轴减
javascript - 调整 Canvas 大小以适应容器
在尝试让我的 Canvas/Stage 调整大小并使其正确适合父容器时遇到一些问题。我发现了其他类似的帖子，虽然答案确实帮助我获得了新的屏幕尺寸，但它仍然不想适应容器，而是直接进入屏幕的边缘(这在示例
svg - 调整 svg 组的路径
我想将路径大小调整为 20 像素左右。 SVG 的大小应为 500 * 500，现在路径宽度为 297，高度为 180.7。现在我需要这条路径，其宽度为 277，高度为 160.7，在之前的路径中。
javascript - 调整 SVG 的大小围绕其原点旋转
我有一个矩形 svg，可以围绕二维平面拖动，围绕它自己的原点旋转并调整大小。 class SVG extends React.Component { constructor(props) {
python - 调整 MLPRegressor 超参数
我一直在尝试调整 MLP 模型的超参数来解决回归问题，但我总是收到收敛警告。这是我的代码 def mlp_model(X, Y): estimator=MLPRegressor() param_gr
SwiftUI - 调整 ScrollView 滚动指示器插入
我正在创建一个聊天应用程序，我希望 ScrollView 的内容位于输入字段下方(向上滚动时)。我已经将 ScrollView 和输入字段放在 ZStack 中。 ScrollView 上的底部填充使
.NET 垃圾收集 (GC) 调整
我遇到 GC 来不及删除空闲对象的情况。该代码将一个大文档加载到内存中并循环处理它。如果我在此循环中停止(在 Debug模式下)或添加 GC.Collect()，内存使用量将下降到 70 MB 以下。
pdf - 调整 PDF 格式以更快地打印它
我正在使用 iTextSharp 和 PdfSharp 的组合来组装一个大型 PDF 文件，以便打印到 Canon Oce VarioPrint 6000 系列打印机。 PDF 正在替换后记文件。这
sql - 调整 mysql 查询以获得更好的性能
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c# - 日志文件的并行 GZip 解压缩 - 调整 MaxDegreeOfParallelism 以获得最高吞吐量