gpt4 book ai didi

C++ 读取 UTF-8 文件 OK,转换为 UTF-16 OK,写回文件 NOT OK

转载 作者:太空宇宙 更新时间:2023-11-04 06:01:40 27 4
gpt4 key购买 nike

我正在使用以下代码读取我在文本编辑器 (Notepad++) 中创建的文本 (.xml) 文件,将我从中读取的 UTF-8 文本转换为 UTF-16,以便 Windows API 函数可以使用它,然后将这个 UTF-16 编码的文本写回第二个文件。

我的问题是,当我在 Notepad++ 中打开输出文件时,无论我要求文本编辑器使用哪种编码,我都没有得到我期望看到的内容。文件中几乎每个字符之前都有空字符。我假设我在将 UTF-16 写入输出文件时做错了什么,或者 Notepad++ 正在读取单字节字符。

有什么想法吗?这是代码:

#define UNICODE

// includes...

int main( int argc, char * argv[] )
{
FILE * pzInFile,
* pzOutFile;

try
{
char sUtf8[8192];
char * pcDst = sUtf8;

wchar_t wsUtf16[8192];

_wfopen_s( & pzInFile, L"../config-sample.xml", L"r" );
_wfopen_s( & pzOutFile, L"../config-sample2.xml", L"w+" );

if( pzInFile && pzOutFile )
{
size_t uiRead;

while( uiRead = fread_s( pcDst, sizeof( sUtf8 ), 1, 1, pzInFile ) )
{
pcDst += uiRead;
}

size_t uiLen = pcDst - sUtf8;

sUtf8[uiLen] = 0;

MultiByteToWideChar( CP_UTF8, 0, sUtf8, 8192, wsUtf16, 8192 ); // UTF-8 to UTF-16

fwrite( wsUtf16, 1, uiLen, pzOutFile );
}
else
{
throw L"Failed to open file";
}
}
catch( const wchar_t * pwsMsg )
{
::MessageBox( NULL, pwsMsg, L"Error", MB_OK | MB_TOPMOST | MB_SETFOREGROUND );
}

if( pzInFile )
{
fclose( pzInFile );
pzInFile = 0;
}
if( pzOutFile )
{
fclose( pzOutFile );
pzOutFile = 0;
}

return 0;
}

最佳答案

我修改了您的代码以修复一些错误。 Notepad++ 在有或没有 BOM 的情况下都能正确显示输出文件,因此它的编码检测例程看起来很合理。

主要问题是:

  • 输出文件(至少)需要以二进制模式打开,否则带有 0A 的双字节 UTF-16 字符将在 Windows 上被翻译为 0D 0A.
  • 我简化了文件读取以在一次读取中填充缓冲区,并考虑了要添加的空终止。
  • MultibyteToWideChar 返回转换的字符数,我使用 -1 作为输入缓冲区大小,因为它以 null 结尾。
  • fwrite 需要为转换后的字符串写入具有正确字节数的转换后字符(减去空值)。在 UTF-16 中,一个字符是两个字节。

至于您的文件损坏,最初 fwrite 正在写入等于 UTF-8 字符串长度的字节。因为那是 1-3 个字符,所以我得到的原始输出文件长度是 39 字节...对于 UTF-16 文件来说是不可能的,所以也许 Notepad++ 的编码启发式没有检测到 UTF-16。由于您没有提供示例数据,我做了一些,我的 Notepad++ 仍然检测到 UTF-16,因此启发式算法也可能会根据数据进行猜测。

#define WIN32_LEAN_AND_MEAN
#include <windows.h>
#include <stdio.h>

int main()
{
FILE* pzInFile;
FILE* pzOutFile;

try
{
char sUtf8[8192];
wchar_t wsUtf16[8192];

_wfopen_s(& pzInFile, L"config-sample.xml", L"r");
_wfopen_s(& pzOutFile, L"config-sample2.xml", L"w+b");

if(pzInFile && pzOutFile)
{
size_t uiRead = fread_s(sUtf8, sizeof(sUtf8), 1, sizeof(sUtf8) - 1, pzInFile);
sUtf8[uiRead] = 0;

int wlen = MultiByteToWideChar(CP_UTF8, 0, sUtf8, -1, wsUtf16, 8192); // UTF-8 to UTF-16

fwrite(wsUtf16, 1, (wlen-1) * sizeof(wchar_t), pzOutFile);
}
else
{
throw L"Failed to open file";
}
}
catch(const wchar_t* pwsMsg)
{
::MessageBox(NULL, pwsMsg, L"Error", MB_OK | MB_TOPMOST | MB_SETFOREGROUND);
}

if(pzInFile)
{
fclose(pzInFile);
pzInFile = 0;
}
if(pzOutFile)
{
fclose(pzOutFile);
pzOutFile = 0;
}

return 0;
}

我的数据文件包含:

<data>αßΓπΣσµτΦΘΩδ</data>

这是输入和输出文件的十六进制转储。请注意,由于我让输入文件以文本模式打开,因此在输入时 0D0A CR-LF 组合被转换为仅 0A,因此只有换行以二进制模式结束输出文件。我留下它来说明 Windows 文本与二进制问题。您可能应该以二进制模式打开两者。

input:  3C646174613ECEB1C39FCE93CF80CEA3CF83C2B5CF84CEA6CE98CEA9CEB43C2F646174613E0D0A0D0A
output: 3C0064006100740061003E00B103DF009303C003A303C303B500C403A6039803A903B4033C002F0064006100740061003E000A000A00

关于C++ 读取 UTF-8 文件 OK,转换为 UTF-16 OK,写回文件 NOT OK,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18678879/

27 4 0