- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
在 C++ 中使用哪些适当的工具来实现完整的 unicode?
比如我试过:
int main()
{
std::wstring name;
std::wcout << "Enter unicode: " << std::endl;
std::getline(std::wcin, name);
std::wcout << name << std::endl;
return 0;
}
输入字符时,它不会像我预期的那样工作:💖 或其他不在 Unicode BMP 中的字符。我打印出一个空行。
普通字符串适用于最多 16 位的任何代码点,wstring、wcin、wcout 不能像我预期的那样工作,一些谷歌搜索没有帮助我看出这可能是什么错误。
编辑(文件 I/O 也有问题!):
我想知道这是否与控制台 I/O 本身有关,并想尝试对文件 I/O 进行同样的实验。我查看了 api 并想出了这个编译和运行良好的:
int main()
{
std::string filename;
std::cout << "Enter file to append to: " << std::endl;
std::getline(std::cin, filename);
std::wifstream file;
std::wstringstream buff;
file.open(filename);
std::wstring txt;
buff << file.rdbuf();
file.close();
txt = buff.str();
std::wcout << txt << std::endl;
return 0;
}
但是当我将它指向我的文件时,它主要包含 lorem ipsum 和一些非 BMP 字符,它会打印文件直到第一个非 BMP 字符,然后提前停止。现代 C++ 中的 Unicode 设施真的这么糟糕吗?
我确定有人知道我在这里缺少的一些基本知识...
最佳答案
您处于 C++ unicode 的灰色地带。 Unicode 最初是从 7 位 ASCII 字符或多字节字符到普通 16 位字符的扩展开始的,后来成为 BMP。这些 16 位字符被 Java 等语言和 Windows 等系统原生采用。 C 和 C++ 在标准观点上更加保守决定 wchar_t
将是一个依赖于实现的宽字符集,根据需要可以是 16 位或 32 位宽(或什至更多...)。好的一面是它是可扩展的,不好的一面是当 wchar_t 只有 16 位时,它从未明确表示非 BMP unicode 字符应该如何表示。
然后创建了 UTF-16 以允许那些非 BMP 字符的标准表示,缺点是它们需要 2 个 16 位字符,并且 std::char_traits<wchar_t>::length
如果其中一些出现在 wstring 中,将再次出错。
这就是大多数 C++ 实现选择 wchar_t
的原因基本 IO 只会正确处理 length
的 BMP unicode 字符返回真实的字符数。
C++-ish 方法是使用 char32_t
当需要完整的 unicode 支持时,基于字符串。事实上wstring_t
和 wchar_t
(字面量的前缀 L)是依赖于实现的类型,并且从 C++11 开始,您还有 char16_t
和 u16string
(前缀 u)明确使用 UTF-16,或 char32_t
和 u32string
(前缀 U)通过 UTF-32 获得完整的 unicode 支持。在 u16string 中存储 BMP 之外的字符的问题在于,您丢失了 string 大小 == 字符数 属性,这是使用宽字符而不是多字节字符的关键原因。
u32string 的一个问题是 io 库仍然没有针对 32 位字符的直接专门化,但是正如转换器所具有的那样,当您处理带有 std::basic_fstream<char32_t>
的文件时,您可能可以轻松地使用它们。 (未经测试但根据标准应该可以工作)。但是您将没有 cin
的标准流, cout
和 cerr
,并且可能必须处理来自 string
中的 native或 u16string
, 然后转换 u32string
中的所有内容借助 C++14 中引入的标准转换器,或者如果仅使用 C++11,则采用困难的方法。
真正黑暗的一面是,由于该原生部分目前依赖于操作系统,您将无法设置一种完全可移植的方式来处理完整的 unicode - 或者至少我不知道。
关于c++ - 关于 C++ 中完整 unicode 的基本问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45809290/
如何将十进制数字转换为mixed radix表示法? 我猜想给定每个基数数组的输入和十进制数,它应该输出每列值的数组。 最佳答案 伪代码: bases = [24, 60, 60] input = 8
我有 Table-A,其中有“x”行。 (对于这个例子有 8 行) 我通过使用游标创建了列数为“x”的Table-C。 (使其动态化;如果将更多行添加到 Table-A,则会在 Table-C 中创建
我有一个关于对象的(很可能是简单而愚蠢的)问题。我创建了实例“Person”的对象“jon”。当我打电话时 console.log(jon.name) 控制台会给我输出“jon”。到目前为止,一切都很
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: javascript function vs. ( function() { … } ()); 抱歉,如果这太基础了
我正在尝试用 Java 重新创建射弹轨迹,但是,我遇到了一些问题。我看过很多解释公式之类的视频,但他们的方程中有一个目标,而我没有。我的意思是,他们有一个范围来计算子弹的下落,但我试图弄清楚子弹最终会
(希望如此)来自一个完整的 Rust 初学者的一个简单问题。我的循环有什么问题? num 计算结果为“69”的速度相当快,但是一旦 num 设置为“69”,循环就永远不会退出。我肯定遗漏了一些明显的东
我在 id="name"的元素上应用“.length”,但它计数为 29 而不是 14。我想知道我的错误在哪里?如果有人可以让我知道,那就太好了。谢谢! var name=document.getEl
我知道这很简单,但由于某种原因我无法让它工作。我正在尝试在 Java 中创建自定义颜色,但它似乎不起作用。 import java.awt.Color; Color deepGreen = new C
我有一个大文件,其中每一行都包含一个子字符串,例如 ABC123。如果我执行 grep ABC file.txt 或 grep ABC1 file.txt 我按预期返回这些行,但如果我执行 grep
我想将以下实体映射转换为 Priority 对象。在 getter 上,当我将“Short”更改为“Priority”并遵循 this.priority 时,它会提示 'basic' 属性类型不应该是
我正在开发一个相当基本的函数,我发现很难弄清楚为什么我会得到我的输出。 def mystery(n): print(n) if n < 4: my
我正在尝试对 WordPress 安装的新闻部分实现同位素过滤。我是 JavaScript/jQuery 的新手,正在尝试随时随地学习。我首先使用 Filters section of the Iso
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。 这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
我在另一个实体类中引用一个实体并收到此错误。下面是示例代码。我在 persistence.xml 中也有这些类。 是什么导致了这个问题?我正在使用 Spring 数据 JPA 和 Hibernate。
我正在解析 HTML 并重新格式化图像以使其更好地适应。由于某种原因,当我有多个图像需要解析时,我会超出范围,而且我一生都无法弄清楚为什么。 当 imgArray.count >1 时,我将使用带有递
我是 SQL 新手,正在尝试创建一个基本的子查询。我需要找出经理的平均年龄和实习生的平均年龄之间的差异。 标题为一栏 - 经理或实习生年龄是一列,全部在同一个表中。 我会使用两个子查询来做类似的事情:
我习惯了 csh,所以不得不使用 bash 有点烦人。这段代码有什么问题? if[$time > 0300] && [$time 和 300 && time < 900 )) then mod
我建立了这个页面:http://excelwrestling.com/poola.php即将到来的双重锦标赛。我的大部分数据都是从我的 mySQL 数据库中提取的,现在只有一些示例数据。 我希望链接选
是否有任何原因导致以下内容不起作用: for (i=0;i < someArray.length;i++) { if (someArray[i].indexOf("something") !=
我现在正在学习 Javascript,有一个问题一直困扰着我! 因此,我在这里所需要做的就是在此输入框中键入颜色,单击按钮并将标题更改为键入的颜色(仅当键入的颜色位于变量中指定的数组中时)。 我的代码
我是一名优秀的程序员,十分优秀!