gpt4 book ai didi

c++ - 使用 MapViewOfFile 映射大文件

转载 作者:塔克拉玛干 更新时间:2023-11-03 01:24:46 26 4
gpt4 key购买 nike

我有一个非常大的文件,我需要分成小块读取它,然后处理每一 block 。我正在使用 MapViewOfFile 函数在内存中映射一 block ,但在阅读第一部分后我无法阅读第二部分。当我尝试映射它时它会抛出。

    char *tmp_buffer = new char[bufferSize];
LPCWSTR input = L"input";
OFSTRUCT tOfStr;
tOfStr.cBytes = sizeof tOfStr;

HANDLE inputFile = (HANDLE)OpenFile(inputFileName, &tOfStr, OF_READ);
HANDLE fileMap = CreateFileMapping(inputFile, NULL, PAGE_READONLY, 0, 0, input);

while (offset < fileSize)
{
long k = 0;
bool cutted = false;
offset -= tempBufferSize;

if (fileSize - offset <= bufferSize)
{
bufferSize = fileSize - offset;
}

char *buffer = new char[bufferSize + tempBufferSize];

for(int i = 0; i < tempBufferSize; i++)
{
buffer[i] = tempBuffer[i];
}

char *tmp_buffer = new char[bufferSize];
LPCWSTR input = L"input";
HANDLE inputFile;
OFSTRUCT tOfStr;
tOfStr.cBytes = sizeof tOfStr;

long long offsetHigh = ((offset >> 32) & 0xFFFFFFFF);
long long offsetLow = (offset & 0xFFFFFFFF);

tmp_buffer = (char *)MapViewOfFile(fileMap, FILE_MAP_READ, (int)offsetHigh, (int)offsetLow, bufferSize);

memcpy(&buffer[tempBufferSize], &tmp_buffer[0], bufferSize);

UnmapViewOfFile(tmp_buffer);

offset += bufferSize;
offsetHigh = ((offset >> 32) & 0xFFFFFFFF);
offsetLow = (offset & 0xFFFFFFFF);

if (offset < fileSize)
{
char *next;
next = (char *)MapViewOfFile(fileMap, FILE_MAP_READ, (int)offsetHigh, (int)offsetLow, 1);

if (next[0] >= '0' && next[0] <= '9')
{
cutted = true;
}

UnmapViewOfFile(next);
}

ostringstream path_stream;
path_stream << tempPath << splitNum;

ProcessChunk(buffer, path_stream.str(), cutted, bufferSize);

delete buffer;

cout << (splitNum + 1) << " file(s) sorted" << endl;
splitNum++;
}

最佳答案

一种可能是您使用的偏移量不是分配粒度的倍数。来自 MSDN:

The combination of the high and low offsets must specify an offset within the file mapping. They must also match the memory allocation granularity of the system. That is, the offset must be a multiple of the allocation granularity. To obtain the memory allocation granularity of the system, use the GetSystemInfo function, which fills in the members of a SYSTEM_INFO structure.

如果您尝试在分配粒度的倍数之外进行映射,则映射将失败并且 GetLastError 将返回 ERROR_MAPPED_ALIGNMENT

除此之外,代码示例中还有很多问题,使您很难看出您正在尝试做什么以及哪里出错了。至少,您需要解决内存泄漏问题。您似乎正在分配然后泄漏完全不必要的缓冲区。给它们起更好的名字可以清楚它们的实际用途。

然后我建议在对 MapViewOfFile 的调用上放置一个断点,然后检查您传递的所有参数值以确保它们看起来正确。一开始,在第二次调用时,您希望 offsetHigh 为 0,offsetLow 为 bufferSize。

一些可疑的事情:

HANDLE inputFile = (HANDLE)OpenFile(inputFileName, &tOfStr, OF_READ); 

每个 Actor 都应该让你怀疑。有时它们是必要的,但请确保您了解原因。此时您应该问问自己,为什么您使用的所有其他文件 API 都需要一个 HANDLE 而这个函数返回一个 HFILE。如果你检查 OpenFile documentation ,您会看到“此函数功能有限,不推荐使用。对于新的应用程序开发,请使用 CreateFile 函数。”我知道这听起来令人困惑,因为您想打开一个现有文件,但 CreateFile 可以做到这一点,并且它返回正确的类型。

long long offsetHigh = ((offset >> 32) & 0xFFFFFFFF);

offset 是什么类型?您可能想确保它是 unsigned long long 或等效的。当位移位时,尤其是向右位移时,您几乎总是希望使用无符号类型来避免符号扩展。您还必须确保它是一种比您要移动的位数更多的类型——将 32 位值移动 32(或更多)位实际上在 C 和 C++ 中是未定义的,这允许编译器进行某些类型的优化。

long long offsetLow = (offset & 0xFFFFFFFF);

在这两个语句中,您必须注意 0xFFFFFFFF 值。由于您没有转换它或给它后缀,因此很难预测编译器会将其视为 int 还是 unsigned int。在这种情况下, 它将是一个 unsigned int,但这对很多人来说并不明显。实际上, 我第一次写这个答案时弄错了。 [本段于 2017 年 5 月 16 日更正] 对于按位运算,您几乎总是希望确保使用的是无符号值。

tmp_buffer = (char *)MapViewOfFile(fileMap, FILE_MAP_READ, (int)offsetHigh, (int)offsetLow, bufferSize);

您正在将 offsetHighoffsetLow 转换为 int,它们是有符号的值。 API 实际上需要 DWORD,它们是无符号值。我不会在调用中进行强制转换,而是将 offsetHighoffsetLow 声明为 DWORD 并在初始化中进行强制转换,如下所示:

DWORD offsetHigh = static_cast<DWORD>((offset >> 32) & 0xFFFFFFFFul);
DWORD offsetLow = static_cast<DWORD>( offset & 0xFFFFFFFFul);
tmp_buffer = reinterpret_cast<const char *>(MapViewOfFile(fileMap, FILE_MAP_READ, offsetHigh, offsetLow, bufferSize));

这些修复可能会也可能不会解决您的问题。很难从不完整的代码示例中判断出发生了什么。

这是一个您可以比较的工作示例:

// Calls ProcessChunk with each chunk of the file.
void ReadInChunks(const WCHAR *pszFileName) {
// Offsets must be a multiple of the system's allocation granularity. We
// guarantee this by making our view size equal to the allocation granularity.
SYSTEM_INFO sysinfo = {0};
::GetSystemInfo(&sysinfo);
DWORD cbView = sysinfo.dwAllocationGranularity;

HANDLE hfile = ::CreateFileW(pszFileName, GENERIC_READ, FILE_SHARE_READ,
NULL, OPEN_EXISTING, 0, NULL);
if (hfile != INVALID_HANDLE_VALUE) {
LARGE_INTEGER file_size = {0};
::GetFileSizeEx(hfile, &file_size);
const unsigned long long cbFile =
static_cast<unsigned long long>(file_size.QuadPart);

HANDLE hmap = ::CreateFileMappingW(hfile, NULL, PAGE_READONLY, 0, 0, NULL);
if (hmap != NULL) {
for (unsigned long long offset = 0; offset < cbFile; offset += cbView) {
DWORD high = static_cast<DWORD>((offset >> 32) & 0xFFFFFFFFul);
DWORD low = static_cast<DWORD>( offset & 0xFFFFFFFFul);
// The last view may be shorter.
if (offset + cbView > cbFile) {
cbView = static_cast<int>(cbFile - offset);
}
const char *pView = static_cast<const char *>(
::MapViewOfFile(hmap, FILE_MAP_READ, high, low, cbView));
if (pView != NULL) {
ProcessChunk(pView, cbView);
}
}
::CloseHandle(hmap);
}
::CloseHandle(hfile);
}
}

关于c++ - 使用 MapViewOfFile 映射大文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9889557/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com