c++ - 将文件映射多线程化为缓冲区数组-6ren

c++ - 将文件映射多线程化为缓冲区数组

转载作者：行者123 更新时间：2023-11-28 07:43:26

25

4

我正在尝试处理讨厌的大型xml和文本文档：〜40GB。
我在Windows 7上使用Visual Studio 2012。

我将使用“ Xerces”从xmls中获取标头/“页脚标记”。

我想映射文件的某个区域，例如60-120MBs。

将地图分为（3 *处理器/核心）相等的部分。将每个部分设置为缓冲区并将缓冲区加载到数组中。

然后，在新线程中的语句中使用（＃processors / cores），我将在咀嚼缓冲区数组时同步计算字符/行/ xml周期。当一个缓冲区完成时，该过程将跳转到下一个“可用”缓冲区，并且完成的缓冲区将从内存中删除。最后，我将总结果添加到项目日志中。

之后，我将参考日志，按字符数/大小（或其他选项）将文件拆分到最接近的行或循环，并在页眉和“页脚标记”中放置所有拆分。

我这样做是为了可以通过具有多台计算机的网络将海量数据导入MySQL服务器。

我的问题是，如何使用新线程创建缓冲区数组和文件映射？

我可以用吗：

赢得CreateFile

赢得CreateFileMapping

赢得MapViewOfFile

使用标准的ifstream操作和char缓冲区还是应该选择其他选项？

进一步说明：
我的想法是，如果让硬盘驱动器从一个位置和一个方向将文件流传输到内存中，就可以使用计算机的全部处理能力来咀嚼单独但相等的缓冲区。

〜Flavor：这就像是一个Shepard，试图从一个装有3-6个大桶的大垃圾桶中捞出食物，只有两个手臂，需要X只绵羊留在围栏内。但是它们全都以光速运动。

一些想法或建议可能会帮助我。
任何想法都是最欢迎的。谢谢。

while(getline(my_file, myStr))
{
   characterCount += myStr.length();

   lineCount++;


   if(my_file.eof()){

      break;

   }
}

这是测试运行时的唯一代码。 2小时30分钟以上。在具有2GB RAM的双核1.6Mhz笔记本电脑上运行该程序的程序的总处理器为45-50％。现在，从firefox中打开的〜50个选项卡中加载的大多数RAM是600 + MB，在Visual Studio中为60MB，然后再等等。

重要提示：在测试过程中，运行代码的程序（仅一个窗口和一个对话框）似乎将其自己的工作和专用的ram集转储到了300K ish，并且没有响应考试。我肯定需要为while语句创建另一个线程。但这意味着没有文件被读入缓冲区。在整个运行过程中，CPU都在努力以跟上硬盘驱动器的最小工作量。

附言CPU瓶颈的进一步证明。通过无线网络将整个文件传输到另一台计算机可能需要20分钟。其中包括读取过程和套接字捕获以在另一台计算机上写入过程。

更新

我使用了这个可爱的小东西，使它从之前的测试时间延长到大约15-20分钟，这与Mats Petersson所说的一致。

while (my_file.read( &bufferOne[0], bufferOne.size() ))

{

int cc = my_file.gcount();

for (int i = 0; i < cc; i++)
{

    if (bufferOne[i] == '\n')
        lineCount++;

    characterCount++;

}

currentPercent = characterCount/onePercent;

SendMessage(GetDlgItem(hDlg, IDC_GENPROGRESS), PBM_SETPOS, currentPercent, 0);

}

当然，这是一个单循环，实际上它的行为比以前的测试要恰当得多。该测试比使用Getline进行的上述紧密循环快约800％。我将此循环的缓冲区设置为20MB。我从以下代码中提取了此代码： SOF - Fastest Example

但...

我想指出的是，在对资源mon和任务管理器中的进程进行轮询时，它清楚地显示出第一个核心的使用率为75-90％，第二个核心的使用率为25-50％（对于我已经打开的一些小背景知识，这是相当标准的），然后将硬盘驱动器放在..等待... 50％。大约100％的磁盘时间峰值，但也有些低点，为25％。所有这些基本上意味着在两个不同线程之间分配缓冲区处理将非常有益。它将使用所有系统资源，但这就是我想要的。我将在今天晚些时候拥有可用的原型进行更新。

主要更新：
经过一番学习，终于完成了我的项目。无需文件映射。只有一堆矢量字符。我已经成功构建了一个动态执行的文件流行和字符计数器。
好消息是，在5.8GB的文件BOOYA上，从之前的10-15分钟标记变为了大约3-4分钟！

最佳答案

答案很简短：是的，您可以使用这些功能。

对于读取数据，这可能是将文件内容映射到内存的最有效方法，因为它省去了将内存复制到应用程序的缓冲区中的麻烦，只需将其直接读取到应该存放的位置即可。因此，只要您有足够的地址空间就没问题-64位计算机当然应该有足够的空间，在32位系统中，它可能更多是稀缺资源-但对于几百MB的部分，它不应该这将是一个巨大的问题。

但是，使用多线程我一点也不确信。我有一个公平的想法，即读取一个大文件的多个部分会适得其反。这将增加磁头在磁盘上的移动量，这是传输速率的很大一部分。对于“普通”系统，您可以依靠大约50-100MB / s的传输速率。如果系统具有某种RAID控制器或类似的RAID控制器，则可能是它的两倍-非常奇特的RAID控制器可以达到三倍。

因此，读取40GB内容大约需要3-15分钟。

CPU可能不会很忙，并且运行多个线程很可能会降低系统的整体性能。

您可能想要保留一个线程用于读取，一个线程用于写入，并且仅在有足够数量的数据后才实际写出数据，以免磁盘上的读/写头不必要地移动。

关于c++ - 将文件映射多线程化为缓冲区数组，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15366154/

25

4

0

文章推荐： c++ - MSCV 2010 --someNumber 运算符的不正确行为

文章推荐： C++:使用owl重新编译旧代码

文章推荐： c++ - 仅提取正则表达式的特定部分 'expression'

文章推荐： css - 在 css 样式表中添加指向图像的链接

javascript - 使用流异步读取文件时如何同步处理每一行/缓冲区
这个问题在这里已经有了答案: Possible to make an event handler wait until async / Promise-based code is done? (2
emacs - 夫妇一起在emacs中的Windows/缓冲区？
我经常有多个运行的进程(R，Python，eshell/shell)，对于每个进程，我经常都有一个相关的脚本，可以从中发送摘要。为此，我通常将每个框架垂直地分成两个窗口，以便脚本文件(例如.py)位于
关闭缓冲区后显示的 Emacs 缓冲区
如何修改 emacs 在关闭缓冲区后选择要显示的缓冲区的方式？当我有多个列显示相同的缓冲区，然后在其中一个缓冲区中打开另一个文件，然后关闭新打开的缓冲区时，它不会切换回前一个缓冲区，而是切换到另一个
vim 复制命令到剪贴板/缓冲区
如何将 ex 命令复制到剪贴板或粘贴到缓冲区？在 Windows 上使用 gvim。最佳答案 windows剪贴板可以通过the buffer + 访问.因此，可以使用 + 将剪贴板粘贴为前命令。
来自多个变量的 javascript 缓冲区
在 javascript 中如何以比以下更简单的方式获取 b 缓冲区？ var num=6553599 var a = new Buffer(4); a.writeInt32LE(num)
OpenGL - 缓冲区、着色器
每次我在 Google 上搜索有关 OpenGL 编程的文章时，我都会找到一些文章，但似乎所有文章都提到了着色器和缓冲区。那些是什么？你能解释其中的一些吗: 深度缓冲区模板缓冲区像素着色器帧缓冲
java - Java中的流、缓冲区
我有java考试，当我学习时，我看到了这个练习，我尝试解决它，但我发现一些困难，所以请帮助我考虑实用程序中方法的以下注释、 header 和部分代码名为 Atbash 的加密类。 /**
OpenGL - 缓冲区、着色器
每次我在 Google 上搜索有关 OpenGL 编程的文章时，我都会找到一些文章，但似乎所有文章都提到了着色器和缓冲区。那些是什么？你能解释其中的一些吗: 深度缓冲区模板缓冲区像素着色器帧缓冲
OpenGL 缓冲区 - 跨步与紧密封装
对于每个属性使用跨步顶点缓冲区与紧密打包缓冲区有何优缺点？我的意思是例如: 步幅:xyzrgb xyzrgb xyzrgb 紧:xyzxyzxyz rgbrgbrgb 乍一看，使用步幅时您似乎可以轻松
Java - 缓冲区 - 我的代码在读取时跳过文本文件的最后一行
我正在尝试将文本文件中每行的数字读取到 ArrayList 中。当我执行以下函数时，它总是跳过最后一个元素。有人可以帮我吗？因为我在这里没有遇到问题，因为它读取直到缓冲区为空，所以他应该在到达 Fil
将结构复制到 char 缓冲区
#include #include int main () { time_t time_raw_format; struct tm * ptr_time; char *buff
将结构复制到 char* 缓冲区
基本上我有一个包含不同类型数据的自定义结构。例如: typedef struct example_structure{ uint8_t* example_1[4]; int example_2[4];
Android ListView 缓冲区
我之前的列表实现是一个简单的 LinearLayout，位于一个装满我的项目的 ScrollView 中。我切换到 ListView 的 Android 实现以简单地使用 CursorAdapter
javascript - 响应式框架中的滑动窗口/缓冲区
我想创建一个可变长度的输入事件窗口/缓冲区，当它接收到额外的事件时会变长。这是为了实现“键入时搜索”功能。我想捕获点击，但为了不给服务器造成压力，我想明智地进行服务调用。我想到的逻辑是缓冲击键，从
复制 yuv420 缓冲区
我想将 yuv420P 像素写入缓冲区而不是二进制文件。假设我在指针中存储了 luma 、 Cb 和 Cr。 luma = output_pixel.luma; cb = output_pixel.c
具有并发读者的 Golang 缓冲区
我想在 Go 中构建一个支持多个并发读取器和一个写入器的缓冲区。所有写入缓冲区的内容都应由所有读者读取。允许新读者随时加入，这意味着已经写入的数据必须能够为迟到的读者回放。缓冲区应满足以下接口(in
没吃透Netty 缓冲区，还能算得上Java老司机？
本文转载自微信公众号「小明菜市场」，作者小明菜市场。转载本文请联系小明菜市场公众号。前言 Java NIO 需要理解的主要有缓冲区，通道，选择器，这三个主要的部分。基础
NIO 数据存储结构——缓冲区 Buffer
一点睛 NIO，可以称为 New IO 或 Non Blocking IO，是在 JDK 1.4 后提供的新 API。传统的I/O 是阻塞式的 I/O、面向流的操作；而 NIO 是非阻塞 I/O 、
vim - 如何切换到包含特定模式的 vim 缓冲区
我正在寻找一种切换到包含搜索文本的缓冲区的方法。例如。如果我打开了 100 个缓冲区，我想切换到一个包含 'fooBar = 1' 的缓冲区最佳答案我写了一个 Vim 插件来做到这一点:buff
video - 将帧插入 FFmpeg 缓冲区
我正在尝试将提取的视频帧(我使用 ffmpeg)推送到 FFMPEG 缓冲区中。我已经查看了 ffmpeg 的缓冲区源文件，例如 buffersrc.c 和 fifo.c，以确定我是否可以这样做，但我

首页

博学

6Ren·AI

商城

c++ - 将文件映射多线程化为缓冲区数组