gpt4 book ai didi

c# - Parallel.ForEach 升级服务器后变慢

转载 作者:行者123 更新时间:2023-11-30 20:40:00 27 4
gpt4 key购买 nike

我有一个每天在 20 个文件夹上运行的进程,里面有 60k+ 个文件。没有子文件夹,输入文件的大小只有几 MB。对于每个文件夹,我读取文件,解析它并将一些数据写入单独的输出文件(即 20 个输出文件)。我最近升级了我们的服务器(更高的内核和更高的内存)并注意到性能急剧下降。我希望有人能指出我这个问题。

下面是我的代码

int iFolderCount = 0;
DirectoryInfo oSourceFolder = new DirectoryInfo(sInputFolder);
DirectoryInfo[] oIdDirectoryList = oSourceFolder.GetDirectories().Where(Id => sFolderList.Contains(Id.Name.ToUpper())).ToArray<DirectoryInfo>();
Parallel.ForEach(oIdDirectoryList, new ParallelOptions { MaxDegreeOfParallelism = Environment.ProcessorCount }, (oId, state) =>
{
FileInfo[] sFileList = oId.GetFiles();
RawCounter.GetOrAdd(oId.Name.ToUpper(), sFileList.Length);

using (StreamWriter oHandoffWriter = new StreamWriter(new FileStream(string.Format("{0}{1}_{2}_{3}{4}", sOutputFolder, Day, sOutputFileName, Interlocked.Increment(ref iFolderCount), HANDOFF_FILE_EXTENSION),FileMode.Append,FileAccess.Write,FileShare.Write)))
{
int iFileCounter = 0;
foreach (FileInfo oFileInfo in sFileList)
{
try
{
ProcessFile(oFileInfo, oHandoffWriter);
iFileCounter++;
}
catch (Exception ex)
{
oLog.Info("Failed to process file " + oFileInfo.Name);
oLog.Info(ex.Message);
oLog.Info(ex.StackTrace);
oLog.Info(ex.InnerException);
File.Copy(oFileInfo.FullName, sErrorFileFolderPath + oFileInfo.Name, true);
}
}
ProcessedCounter.GetOrAdd(oId.Name.ToUpper(), iFileCounter);
}
});

将流程转移到新服务器后,我注意到性能急剧下降。我们从 8 核变为 36 核,从 8GB RAM 变为 128GB RAM。

Server Configuration

我开始降低并行度,并注意到每次降低并行度时进程的性能都会提高。

MaxDegreeOfParallelism =  2

通过将其设置为 2,我看到了更高的性能。我在这里缺少什么? MaxDegreeOfParallelism = Environment.ProcessorCount 在运行 windows server 2008、8 核、8GB RAM 的旧服务器上更快,而 MaxDegreeOfParallelism = 2 在新的 windows server 2012、32 核、128 GB RAM 上更快。

编辑:我同意这个过程是 IO 密集型的。每天的文件数量/大小变化不大。以下是旧服务器上该过程的完整时间。

  • 第 20151028 天完成交接。该过程耗时 504.05125171 分钟。
  • 第 20151027 天完成交接。该过程耗时 504.37106602 分钟。
  • 第 20151026 天的交接已完成。该过程耗时 549.76132134 分钟。
  • 完成 20151025 日的交接。该过程耗时 541.97557402 分钟。
  • 第 20151024 天完成交接。该过程耗时 567.14474476 分钟。
  • 第 20151023 天完成交接。该过程耗时 513.51368027 分钟。
  • 第 20151022 天的交接已完成。该过程耗时 595.21733215 分钟。

在我使用 Environment.ProcessorCount
的新服务器上 - 完成 20151118 日的交接。该过程耗时 712.05125171 分钟。

在我使用2作为并行度的新服务器上
- 20151118 日完成交接。该过程耗时 89.61782427 分钟。

我会做更多的运行并更新这个问题。

最佳答案

处理既不受 CPU 限制也不受内存限制,因此新服务器根本无济于事。似乎 IO 绑定(bind)了。 IO硬件有变化吗?并行加上 IO 很容易意味着性能下降,因为顺序 IO 可能会变成随机 IO。

根据CPU核数来选择IO的DOP是错误的。最佳 IO DOP 与内核数无关。根据经验确定最佳 DOP。

关于c# - Parallel.ForEach 升级服务器后变慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33816412/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com