- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试处理讨厌的大型xml和文本文档:〜40GB。
我在Windows 7上使用Visual Studio 2012。
我将使用“ Xerces”从xmls中获取标头/“页脚标记”。
我想映射文件的某个区域,例如60-120MBs。
将地图分为(3 *处理器/核心)相等的部分。将每个部分设置为缓冲区并将缓冲区加载到数组中。
然后,在新线程中的语句中使用(#processors / cores),我将在咀嚼缓冲区数组时同步计算字符/行/ xml周期。当一个缓冲区完成时,该过程将跳转到下一个“可用”缓冲区,并且完成的缓冲区将从内存中删除。最后,我将总结果添加到项目日志中。
之后,我将参考日志,按字符数/大小(或其他选项)将文件拆分到最接近的行或循环,并在页眉和“页脚标记”中放置所有拆分。
我这样做是为了可以通过具有多台计算机的网络将海量数据导入MySQL服务器。
我的问题是,如何使用新线程创建缓冲区数组和文件映射?
我可以用吗 :
赢得CreateFile
赢得CreateFileMapping
赢得MapViewOfFile
使用标准的ifstream操作和char缓冲区还是应该选择其他选项?
进一步说明:
我的想法是,如果让硬盘驱动器从一个位置和一个方向将文件流传输到内存中,就可以使用计算机的全部处理能力来咀嚼单独但相等的缓冲区。
〜Flavor:这就像是一个Shepard,试图从一个装有3-6个大桶的大垃圾桶中捞出食物,只有两个手臂,需要X只绵羊留在围栏内。但是它们全都以光速运动。
一些想法或建议可能会帮助我。
任何想法都是最欢迎的。谢谢。
while(getline(my_file, myStr))
{
characterCount += myStr.length();
lineCount++;
if(my_file.eof()){
break;
}
}
while (my_file.read( &bufferOne[0], bufferOne.size() ))
int cc = my_file.gcount();
for (int i = 0; i < cc; i++)
{
if (bufferOne[i] == '\n')
lineCount++;
characterCount++;
}
currentPercent = characterCount/onePercent;
SendMessage(GetDlgItem(hDlg, IDC_GENPROGRESS), PBM_SETPOS, currentPercent, 0);
最佳答案
答案很简短:是的,您可以使用这些功能。
对于读取数据,这可能是将文件内容映射到内存的最有效方法,因为它省去了将内存复制到应用程序的缓冲区中的麻烦,只需将其直接读取到应该存放的位置即可。因此,只要您有足够的地址空间就没问题-64位计算机当然应该有足够的空间,在32位系统中,它可能更多是稀缺资源-但对于几百MB的部分,它不应该这将是一个巨大的问题。
但是,使用多线程我一点也不确信。我有一个公平的想法,即读取一个大文件的多个部分会适得其反。这将增加磁头在磁盘上的移动量,这是传输速率的很大一部分。对于“普通”系统,您可以依靠大约50-100MB / s的传输速率。如果系统具有某种RAID控制器或类似的RAID控制器,则可能是它的两倍-非常奇特的RAID控制器可以达到三倍。
因此,读取40GB内容大约需要3-15分钟。
CPU可能不会很忙,并且运行多个线程很可能会降低系统的整体性能。
您可能想要保留一个线程用于读取,一个线程用于写入,并且仅在有足够数量的数据后才实际写出数据,以免磁盘上的读/写头不必要地移动。
关于c++ - 将文件映射多线程化为缓冲区数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15366154/
这个问题在这里已经有了答案: Possible to make an event handler wait until async / Promise-based code is done? (2
我经常有多个运行的进程(R,Python,eshell/shell),对于每个进程,我经常都有一个相关的脚本,可以从中发送摘要。为此,我通常将每个框架垂直地分成两个窗口,以便脚本文件(例如.py)位于
如何修改 emacs 在关闭缓冲区后选择要显示的缓冲区的方式? 当我有多个列显示相同的缓冲区,然后在其中一个缓冲区中打开另一个文件,然后关闭新打开的缓冲区时,它不会切换回前一个缓冲区,而是切换到另一个
如何将 ex 命令复制到剪贴板或粘贴到缓冲区? 在 Windows 上使用 gvim。 最佳答案 windows剪贴板可以通过the buffer + 访问.因此,可以使用 + 将剪贴板粘贴为前命令。
在 javascript 中如何以比以下更简单的方式获取 b 缓冲区? var num=6553599 var a = new Buffer(4); a.writeInt32LE(num)
每次我在 Google 上搜索有关 OpenGL 编程的文章时,我都会找到一些文章,但似乎所有文章都提到了着色器和缓冲区。那些是什么?你能解释其中的一些吗: 深度缓冲区 模板缓冲区 像素着色器 帧缓冲
我有java考试,当我学习时,我看到了这个练习,我尝试解决它,但我发现一些困难,所以请帮助我考虑实用程序中方法的以下注释、 header 和部分代码名为 Atbash 的加密类。 /**
每次我在 Google 上搜索有关 OpenGL 编程的文章时,我都会找到一些文章,但似乎所有文章都提到了着色器和缓冲区。那些是什么?你能解释其中的一些吗: 深度缓冲区 模板缓冲区 像素着色器 帧缓冲
对于每个属性使用跨步顶点缓冲区与紧密打包缓冲区有何优缺点?我的意思是例如: 步幅:xyzrgb xyzrgb xyzrgb 紧:xyzxyzxyz rgbrgbrgb 乍一看,使用步幅时您似乎可以轻松
我正在尝试将文本文件中每行的数字读取到 ArrayList 中。当我执行以下函数时,它总是跳过最后一个元素。有人可以帮我吗?因为我在这里没有遇到问题,因为它读取直到缓冲区为空,所以他应该在到达 Fil
#include #include int main () { time_t time_raw_format; struct tm * ptr_time; char *buff
基本上我有一个包含不同类型数据的自定义结构。例如: typedef struct example_structure{ uint8_t* example_1[4]; int example_2[4];
我之前的列表实现是一个简单的 LinearLayout,位于一个装满我的项目的 ScrollView 中。 我切换到 ListView 的 Android 实现以简单地使用 CursorAdapter
我想创建一个可变长度的输入事件窗口/缓冲区,当它接收到额外的事件时会变长。 这是为了实现“键入时搜索”功能。我想捕获点击,但为了不给服务器造成压力,我想明智地进行服务调用。 我想到的逻辑是缓冲击键,从
我想将 yuv420P 像素写入缓冲区而不是二进制文件。假设我在指针中存储了 luma 、 Cb 和 Cr。 luma = output_pixel.luma; cb = output_pixel.c
我想在 Go 中构建一个支持多个并发读取器和一个写入器的缓冲区。所有写入缓冲区的内容都应由所有读者读取。允许新读者随时加入,这意味着已经写入的数据必须能够为迟到的读者回放。 缓冲区应满足以下接口(in
本文转载自微信公众号「小明菜市场」,作者小明菜市场。转载本文请联系小明菜市场公众号。 前言 Java NIO 需要理解的主要有缓冲区,通道,选择器,这三个主要的部分。 基础
一 点睛 NIO,可以称为 New IO 或 Non Blocking IO,是在 JDK 1.4 后提供的新 API。传统的I/O 是阻塞式的 I/O、面向流的操作;而 NIO 是非阻塞 I/O 、
我正在寻找一种切换到包含搜索文本的缓冲区的方法。 例如。如果我打开了 100 个缓冲区,我想切换到一个包含 'fooBar = 1' 的缓冲区 最佳答案 我写了一个 Vim 插件来做到这一点:buff
我正在尝试将提取的视频帧(我使用 ffmpeg)推送到 FFMPEG 缓冲区中。我已经查看了 ffmpeg 的缓冲区源文件,例如 buffersrc.c 和 fifo.c,以确定我是否可以这样做,但我
我是一名优秀的程序员,十分优秀!