c++ - Unicode 字符不读

c++ - Unicode 字符不读 - C++

转载作者：搜寻专家更新时间：2023-10-31 02:23:56

25

4

我有一段简单的代码可以打开文件流并打印出内容。一旦遇到 unicode 字符，它就会停止读取。

我的系统设置为日语语言环境，Visual Studio 设置为编译为 unicode。不确定发生了什么。

文件:

<abc \ 单位孤>hajslklfasjflkesjfleajflj

文件十六进制转储:

EF BB BF 3C 61 62 63 20 5C 20 E5 8D 95 E4 BD 8D
E5 AD A4 3E 68 61 6A 73 6C 6B 6C 66 61 73 6A 66
6C 6B 65 73 6A 66 6C 65 61 6A 66 6C 6A 0D 0A

代码部分:

std::wifstream fin(path, std::ios::binary);
fin.imbue(std::locale(fin.getloc(), new std::codecvt_utf8_utf16<wchar_t, 0x10ffff, std::consume_header>));
if (!fin.good()) return;

while (fin.good()) {
    std::wcout << (wchar_t)fin.get() << "\n";
}

fin.close();

输出:

Output

最佳答案

读起来还好，就是写不好。

std::wcout << (wchar_t)fin.get() << "\n";

不幸的是，std::wcout 实际上并不能可靠地将 Unicode 发送到终端。

虽然 Windows 终端本身以 UTF-16 代码单元工作，但 std::wcout 仍然以纯粹基于字节的术语定义。它使用特定于语言环境的默认编码将其宽输入向下转换为字节，然后再写入良好的旧 Unicode 无知字节标准输出流(毕竟这可能是 native 字节文件重定向以及 native Unicode 终端输出) .

因此 std::wcout 最终在 Windows 下与所有其他字节 IO 接口(interface)一样受到限制，仅限于当前代码页中的字符。您的代码页可能是 932，其中字符 单 U+5355 不存在，因此尝试写入它会中断流。

由于基本 C 运行时中的各种多字节字符计数错误，将当前代码页设置为 65001 以尝试获得所有其他现代平台喜欢的相同 UTF-8 输出并不完全有效。 MS 已经为许多多个版本打破了这一点，因此希望 UTF-8 在 Windows 下仍然是二等公民。

一些备选方案:

使用 Win32 WriteConsoleW API 而不是 stdlib 接口(interface)。 (需要小心处理可能的输出重定向，如果您需要您的项目跨平台兼容。)
使用 _setmode 和 _O_U16TEXT 将输出流更改为 UTF-16 编码字节。请参阅 this question 中的示例.似乎并非所有接口(interface)都必须在这种模式下工作；如果您尝试同时使用字节接口(interface)，您可能会遇到麻烦。
输出明确的 UTF-8 编码字节，并要求 Windows 控制台用户只能忍受由此产生的拼写和缺失字形。

很遗憾这个故事仍然如此悲惨。

关于c++ - Unicode 字符不读 - C++，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28706426/

25

4

0

文章推荐： c++ - "iw"命令在 Qt Ubuntu 14.04 中的 Qprocess 中不起作用

文章推荐： c++ - 在 header 或 .cpp 中重载输入操作 >>

文章推荐： c# - 如何更改 SWIG 生成的 CSHARP 文件中的构造函数代码

Cassandra 读/写性能
我在不同的硬件上测试 Cassandra 已经有一段时间了。首先我有 2 个 CPU 和 6 GB RAM 然后我更改为 16 个 CPU 和 16 GB RAM(其中只有 6 GB 可供我的测试使
lua - 读/写二进制文件
我只是想从二进制文件中读/写。我一直在关注 this教程，它的工作原理......除了它似乎正在将内容写入 txt 文件。我在测试的时候把文件命名为test.bin，但是记事本可以打开并正常显示，所以
java - 读/写导致奇怪的字符
我编写了一些简单的 Java 代码来从文本文件中读取字符串，将它们组合起来，然后将它们写回。 (有关输出没有变化的简化版本，请参见下面的片段) 问题是输入文件和输出文件中的特定字符(- 和 ...)是
Pascal - 读/读函数杂质？
我真的很感兴趣——你为什么要放 readln; 从键盘读取一些值到变量后的行？例如， repeat writeln('Make your choise'); read(CH); if (CH = '1
multithreading - 读/写模块数组的不同元素是线程安全的吗？
只要程序不允许同时写入存储在模块中的共享数据结构的相同元素，它是线程安全的吗？我知道这是一个菜鸟问题，但在任何地方都找不到明确解决的问题。情况如下: 在程序开始时，数据被初始化并存储在模块级可分配数组
multithreading - 读/写同步
我有一个数据结构，其操作可以归类为读取操作(例如查找)和写入操作(例如插入、删除)。这些操作应该同步，以便: 读操作不能在写操作执行时执行(除非在同一线程上)，但是读操作可以与其他读操作并发执行。在
java - 读/写Java套接字流时的澄清
我在Java套接字编程中有几个问题。在读取客户端套接字中的输入流时，如果抛出IO异常；那么我们是否需要重新连接服务器套接字/再次初始化客户端套接字？如果我们关闭输出流，它将关闭客户端套接字吗？如
c - 读/写结构到套接字
我正在尝试从客户端将结构写入带有套接字的服务器。结构是: typedef struct R { int a; int b; double c; double d; double result[4];
azure - 读/写用户属性
我想知道是否可以通过 Javascript 从/向 Azure Active Directory 广告读取/写入数据。我读到 Azure 上有 REST 服务，但主要问题是生成与之通信的 token
Haskell 读/写二进制文件完整工作示例
我希望有人能提供完整的工作代码，允许在 Haskell 中执行以下操作: Read a very large sequence (more than 1 billion elements) of 32
Java 读/写文件
我有一个任务是制作考试模拟器。我的意思是，在老师输入某些科目的分数后，学生输入他的名字、姓氏和出生，然后他决定学生是否通过科目。所以，我有一个问题，如何用新行写入文件文本并通过重写该文件来读取(逐行读
java - 读/写大文件的最简单格式
我需要编写巨大的文件(超过 100 万行)并将文件发送到另一台机器，我需要使用 Java BufferedReader 一次读取一行。我使用的是 indetned Json 格式，但结果不太方便，
java - 读/写数据库错误
我在 Android 应用程序中有一个读写操作。在 onCreate 上，将读取文件并将其显示为编辑文本并且可以进行编辑。当按下保存按钮时，数据将被写入 onCreate 上读取的同一文件中。但我得到
java - 读/写文件不会写入输出
我正在编写一个程序，该程序从一个文件读取输入，然后该程序将格式化数据并将其写入另一个文件。输入文件: Christopher kardaras,10 N Brainard,Naperville,IL
java - 读/写效率
我有一个 SCALA(+ JAVA) 代码，它以一定的速率读写。分析可以告诉我代码中每个方法的执行时间。如何衡量我的程序是否达到了最大效率？为了使我的代码优化，以便它以给定配置可能的最大速度读取。我知
java - 读/写项目文件夹中的文件
嗨，我想知道如何访问 java/maven 中项目文件夹中的文件，我考虑过使用 src/main/resources，但有人告诉我，写入此目录中的文件是一个坏主意，并且应该只在项目的配置中使用，所以我
c# - 读\写结构化二进制文件
我想读\写一个具有以下结构的二进制文件: 该文件由“RECORDS”组成。每个“RECORD”具有以下结构:我将以第一条记录为例 (红色)起始字节:0x5A(始终为 1 字节，固定值 0x5A) (绿
C - 读/写具有动态名称的文件
我想制作一个C程序，它将用一些参数来调用；每个参数将代表一个文件名，我想在每个参数中写一些东西。 FILE * h0; h0 = fopen(argv[0],"w"); char buff
C 读、写和操作文件
我有一个包含团队详细信息的文件。我需要代码来读取文件，并将获胜百分比写入第二个文件。我还需要使用指示的搜索功能来搜索团队的具体信息。该代码未写入百分比文件。当菜单显示时，第一个文件的内容被打印，但代码
C - 读()和写()
我正在使用 read() 和 write() 函数来处理我的类，并且我正在尝试使用一个函数来写入它所读取的内容以及我作为参数给出的前面的内容。例如，我想给出 10 作为我的程序的参数 int mai

首页

博学

6Ren·AI

商城

c++ - Unicode 字符不读 - C++