- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在使用以下代码读取我在文本编辑器 (Notepad++) 中创建的文本 (.xml) 文件,将我从中读取的 UTF-8 文本转换为 UTF-16,以便 Windows API 函数可以使用它,然后将这个 UTF-16 编码的文本写回第二个文件。
我的问题是,当我在 Notepad++ 中打开输出文件时,无论我要求文本编辑器使用哪种编码,我都没有得到我期望看到的内容。文件中几乎每个字符之前都有空字符。我假设我在将 UTF-16 写入输出文件时做错了什么,或者 Notepad++ 正在读取单字节字符。
有什么想法吗?这是代码:
#define UNICODE
// includes...
int main( int argc, char * argv[] )
{
FILE * pzInFile,
* pzOutFile;
try
{
char sUtf8[8192];
char * pcDst = sUtf8;
wchar_t wsUtf16[8192];
_wfopen_s( & pzInFile, L"../config-sample.xml", L"r" );
_wfopen_s( & pzOutFile, L"../config-sample2.xml", L"w+" );
if( pzInFile && pzOutFile )
{
size_t uiRead;
while( uiRead = fread_s( pcDst, sizeof( sUtf8 ), 1, 1, pzInFile ) )
{
pcDst += uiRead;
}
size_t uiLen = pcDst - sUtf8;
sUtf8[uiLen] = 0;
MultiByteToWideChar( CP_UTF8, 0, sUtf8, 8192, wsUtf16, 8192 ); // UTF-8 to UTF-16
fwrite( wsUtf16, 1, uiLen, pzOutFile );
}
else
{
throw L"Failed to open file";
}
}
catch( const wchar_t * pwsMsg )
{
::MessageBox( NULL, pwsMsg, L"Error", MB_OK | MB_TOPMOST | MB_SETFOREGROUND );
}
if( pzInFile )
{
fclose( pzInFile );
pzInFile = 0;
}
if( pzOutFile )
{
fclose( pzOutFile );
pzOutFile = 0;
}
return 0;
}
最佳答案
我修改了您的代码以修复一些错误。 Notepad++ 在有或没有 BOM 的情况下都能正确显示输出文件,因此它的编码检测例程看起来很合理。
主要问题是:
0A
的双字节 UTF-16 字符将在 Windows 上被翻译为 0D 0A
.MultibyteToWideChar
返回转换的字符数,我使用 -1
作为输入缓冲区大小,因为它以 null 结尾。fwrite
需要为转换后的字符串写入具有正确字节数的转换后字符(减去空值)。在 UTF-16 中,一个字符是两个字节。至于您的文件损坏,最初 fwrite
正在写入等于 UTF-8 字符串长度的字节。因为那是 1-3 个字符,所以我得到的原始输出文件长度是 39 字节...对于 UTF-16 文件来说是不可能的,所以也许 Notepad++ 的编码启发式没有检测到 UTF-16。由于您没有提供示例数据,我做了一些,我的 Notepad++ 仍然检测到 UTF-16,因此启发式算法也可能会根据数据进行猜测。
#define WIN32_LEAN_AND_MEAN
#include <windows.h>
#include <stdio.h>
int main()
{
FILE* pzInFile;
FILE* pzOutFile;
try
{
char sUtf8[8192];
wchar_t wsUtf16[8192];
_wfopen_s(& pzInFile, L"config-sample.xml", L"r");
_wfopen_s(& pzOutFile, L"config-sample2.xml", L"w+b");
if(pzInFile && pzOutFile)
{
size_t uiRead = fread_s(sUtf8, sizeof(sUtf8), 1, sizeof(sUtf8) - 1, pzInFile);
sUtf8[uiRead] = 0;
int wlen = MultiByteToWideChar(CP_UTF8, 0, sUtf8, -1, wsUtf16, 8192); // UTF-8 to UTF-16
fwrite(wsUtf16, 1, (wlen-1) * sizeof(wchar_t), pzOutFile);
}
else
{
throw L"Failed to open file";
}
}
catch(const wchar_t* pwsMsg)
{
::MessageBox(NULL, pwsMsg, L"Error", MB_OK | MB_TOPMOST | MB_SETFOREGROUND);
}
if(pzInFile)
{
fclose(pzInFile);
pzInFile = 0;
}
if(pzOutFile)
{
fclose(pzOutFile);
pzOutFile = 0;
}
return 0;
}
我的数据文件包含:
<data>αßΓπΣσµτΦΘΩδ</data>
这是输入和输出文件的十六进制转储。请注意,由于我让输入文件以文本模式打开,因此在输入时 0D0A
CR-LF 组合被转换为仅 0A
,因此只有换行以二进制模式结束输出文件。我留下它来说明 Windows 文本与二进制问题。您可能应该以二进制模式打开两者。
input: 3C646174613ECEB1C39FCE93CF80CEA3CF83C2B5CF84CEA6CE98CEA9CEB43C2F646174613E0D0A0D0A
output: 3C0064006100740061003E00B103DF009303C003A303C303B500C403A6039803A903B4033C002F0064006100740061003E000A000A00
关于C++ 读取 UTF-8 文件 OK,转换为 UTF-16 OK,写回文件 NOT OK,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18678879/
我打算使用 vulkan synchronization examples 之一作为如何处理不经常更新的统一缓冲区的引用。具体来说,我正在看这个: vkBeginCommandBuffer(...);
我对 git 的了解有限。 我已经从 master 创建了一个分支 B1,进行了一些编辑并提交到这个分支。 我想从 B1 创建另一个分支 B2,我在 B2 中进行了一些编辑 而且我还想提交 B2(包含
这是我做的 我创建了一个分支 abc。然后我创建了两个文本文件 one.txt 和 two.txt。然后我将它们提交到分支 abc。然后我从分支中删除文件 one.txt 并将这些更改提交到分支。 现
在我的主分支中,我得到了 2 个文件: file1.txt file2.txt 我从那里创建了名为 b1 的新分支。在b1中,我修改了file2.txt,不小心删除了file1.txt(从磁盘中,当我
我是 git 的新手。 我创建了一个分支,进行了更改,现在我想 merge 回 master 以使它们“永久化”。 所以我执行了 git merge 1.2 报告为已经是最新的,在 master 上执
我在一个新团队中,工作方式与我以前习惯的完全不同,我们在功能分支上工作,测试人员会在该功能分支上进行测试,然后我们会运行一个 jenkins 作业在该功能被测试签署时将该功能 merge 到开发中,根
我目前正在学习动态内存管理是如何工作的,更具体地说是 realloc 以及它是如何在函数中完成的。 在下面的程序中,我只是想尝试使用 malloc 在函数 a() 中分配一些数字,然后将它们传递给另一
在 Java 中如何从另一个线程分派(dispatch)回主 UI 线程?我正在使用带有 Runnable 的执行器在主 UI 线程之外做一些工作,并且我有一个接口(interface),以便可以通过
我在 git 中有一个项目,所有的事情都直接在 master 分支上完成,标签被用来标记代码的发布版本。我知道这并不理想,并且一直在查看 git 流程,例如:http://nvie.com/posts
我们有一个相当大的 GIT 存储库,我想删除从未 merge 回 master 的分支。 反过来也很好 - 一种列出在某个时候已 merge 到 master 中的所有分支的方法。 我希望首先获取一个
在 Swift 和 C 之间传递字符串时,我看到一些我不理解的行为。请考虑以下 Swift 函数: func demo() { print("\n\n\n\n")
我以前从未合作过,现在我发现自己需要与其他一些人分享这个项目,即使我将完成 90% 的开发工作。 我在 github 上有一个私有(private)仓库。我用 推送了我的初始源 git push or
我们的项目使用 Gitlab,我们有两个长期存在的分支:dev 和 master,类似于 Git Flow。我们正在使用“merge 提交”方法,它将在主分支中创建一个 merge 提交。 但是,由于
我对自定义 View 的绑定(bind)属性有疑问。该属性绑定(bind)到核心数据实体的 NSArrayController。 问题是这样的: 在我看来,我画了几个矩形。这些矩形的位置保存在核心数据
这对我来说似乎太棘手,无法正确执行此操作。 我有一个TreeMap ,我正在获取其中的子图: public static reqObj assignObj(reqObj vArg, i
我有以下 XAML: 所以,基本上我希望将其中一
我正在使用 Angular js 1.3.4 版本并使用 ui-select。 我正在将复杂的多级 JSON 对象数组绑定(bind)到此 ui-select,它工作正常。因此用户可以在此选择中选择任
我正在使用 WebAPI 构建 API,并且一直在使用 NLog 在整个堆栈中进行日志记录。我的 API 解决方案有两个主要项目,包括: 实现 Controller 和 webapi 东西的网站层本身
在 Git 中,给定 (1) 一个分支 A 和 (2) 一个在过去某个时间从 A 派生的分支 B,然后 merge 回 A,我如何才能找到现在 A 中起源于 B 的所有提交? 目的是确定现在在 A 中
假设我的 Controller 如下所示: public class myController { private MyCustomItem acte; ... // gett
我是一名优秀的程序员,十分优秀!