- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
短版:
如果我想编写可以有效执行 Unicode 字符操作的程序,能够输入和输出 UTF-8 或 UTF-16 编码的文件。使用 C++ 执行此操作的合适方法是什么?
长版:
C++ 早于 Unicode,并且两者都已经有了显着的发展。我需要知道如何编写符合标准且无泄漏的 C++ 代码。我需要一个明确的答案:
std::string
用UTF-8? std::wstring
(不太了解)std::u16string
使用 UTF-16? std::u32string
使用 UTF-32? ąćęłńśźż
等等?std::string
中存储 UTF-8 编码的字符时会发生什么变化?它们仅限于一字节的 ASCII 字符还是可以是多字节的? std::string s = u8"foo";
s += 'x';
wchar_t
字符或 wchar_t
能够存储UTF编码的字符串文字?最佳答案
Which string container should I pick?
std::wstring
(don't really know much about it)
wchar_t
尺寸依赖于编译器,甚至依赖于平台。例如,在 Windows 上,
wchar_t
是 2 个字节,使得
std::wstring
可用于 UTF-16 编码的字符串。在其他平台上,
wchar_t
可能是 4 个字节,使得
std::wstring
可用于 UTF-32 编码的字符串。这就是为什么
wchar_t
/
std::wstring
一般不用于可移植代码,为什么
char16_t
/
std::u16string
和
char32_t
/
std::u32string
是在 C++11 中引入的。偶
char
UTF-8 可能存在可移植性问题,因为
char
可以根据编译器供应商的要求进行签名或不签名,这就是为什么
char8_t
/
std::u8string
是在 C++20 中为 UTF-8 引入的。
Should I stick entirely to one of the above containers or change them when needed?
How to properly convert between them?
std::wstring_convert
/
std::wbuffer_convert
.但是这些在 C++17 中被弃用了。
Can I use non-english characters in string literals, when using UTF strings, such as Polish characters:
ąćęłńśźż
etc?
u8
对于 UTF-8。
L
对于 UTF-16 或 UTF-32(取决于编译器/平台)。
u16
对于 UTF-16。
u32
对于 UTF-32。
What changes when we store UTF-8 encoded characters in
std::string
? Are they limited to one-byte ASCII characters or can they be multi-byte?
std::wstring
(当
wchar_t
为 2 个字节时)和
std::u16string
可以保存包含 Unicode BMP 之外的补充字符的字符串,这需要 UTF-16 代理进行编码。
char
s in a
std::string)
。UTF-16 将代码点编码为 1-2 个代码单元(1-2
wchar_t
s/
char16_t
在
std::wstring
/
std::u16string
中。UTF-32 将代码点编码为 1 个代码单元(在
char32_t
中为 1
std::u32string
)。
What happens when i do the following?
std::string s = u8"foo";
s += 'x';
std::string
持有
char
元素。不管编码如何,
operator+=(char)
将简单地附加一个
char
到最后
std::string
.
How can I distinguish UTF
char[]
and non-UTFchar[]
orstd::string
?
char[]
执行您自己的启发式分析。/
std::string
数据以查看它是否符合 UTF。
What are differences between wchar_t and other multi-byte character types?
char
= ANSI/MBCS 或 UTF-8
wchar_t
= DBCS、UTF-16 或 UTF-32,取决于编译器/平台
char8_t
= UTF-8
char16_t
= UTF-16
char32_t
= UTF-32
Is wchar_t character or wchar_t string literal capable of storing UTF encodings?
wchar_t
只能保存 BMP 中的代码点值。单
wchar_t
在 UTF-32 中可以保存任何代码点值。一个
wchar_t
string 可以以任一编码方式对所有代码点进行编码。
How to properly manipulate UTF strings (such as toupper/tolower conversion) and be compatible with locales simultaneously?
关于c++ - 使用 C++17 处理 Unicode 的高效、符合标准的机制是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48816848/
我还没有找到太多关于何时使用 Unicode 的(简明)信息。我知道很多人说最佳实践是始终使用 Unicode。但 Unicode 字符串确实有更多的内存占用。我是否正确地说,必须仅在以下情况下使用
我正在构建一个需要使用表情符号的应用程序,特别是生成大量随机表情符号序列。这需要有一个大列表可供选择。而不是采取方法 detailed here通过循环硬编码十六进制范围,我决定采用不同的方法并从 t
早在 ZX Spectrum 的早期,就有一种方法可以将一个字形打印在另一个字形之上,从而在 OVER 1 指令的帮助下创建复合字形。 我想知道是否有 Unicode 方法可以在现代计算机上执行相同的
我有一个表示 Unicode 代码点的字符串,例如 "272d"。如何将其转换为 "✭"? Elixir 当然理解 Unicode: iex> > "✭" iex> "x{272d}" "✭" 但我需
自从我了解到 clang 能够编译用 Unicode 编写的 c++ 源文件后,我在编写与数学相关的代码时就开始大量使用它。比较 uₙ₊₁ᵖ = A*uₙ + B*uₙ₋₁; uₙ₊₁ᶜ = π *
感谢jmcnamara我发现了一种在 xlsxwriter 图表中使用 Unicode 字符的好方法:xlsxwrter: rich text format in chart title 我需要一个所
有些字符不包含在 Unicode 中(即带重音的西里尔字母),但可以使用组合序列创建。据我了解,可能的组合字符序列是在布局引擎和/或使用的字体中定义的。我对吗?那么,如何得到所有可能的组合序列呢? 最
我正在尝试使用 libunibreak ( https://github.com/adah1972/libunibreak ) 来标记某些给定 unicode 文本中可能的换行符。 Libunibre
我需要具有属性 Alphabetic 的 Unicode 字符范围列表如 http://www.unicode.org/Public/5.1.0/ucd/UCD.html#Alphabetic 中所定
我想为 Unicode 中的特定字符找到视觉上相同的字符。 我知道如何找到一个字符的规范或兼容性分解;但他们没有给我我想要的。 我想找到视觉上相同(不相似)的字符,它们唯一的区别可能是它们的大小。 例
假设我有包含此字符串的 Apache Solr 索引文档: Klüft skräms inför 我希望能够使用此关键字通过搜索找到它(注意“u”-“ü”): kluft 有没有办法做到这一点 ? 最
我已经阅读了很多文章以了解 Unicode 代码点的最大数量,但我没有找到最终答案。 我知道 Unicode 代码点已最小化,以使所有 UTF-8 UTF-16 和 UTF-32 编码都能够处理相同数
我正在使用 CSS Buttons With Icons But No Images . 图标是使用 unicode 值生成的。在这方面,我遇到了一些浏览器不支持某些 unicode 值的问题。因此,
我正在寻找一种方法将 Unicode 字母字符从任何语言音译为带重音的拉丁字母。目的是让外国人深入了解以任何非拉丁文字书写的姓名和单词的发音。 例子: 希腊语:Romanize("Αλφαβητικό
Unicode 6.0 添加了几个带有描述的字符,表明这些字符应该以特定颜色呈现: 红苹果 U+1F34E 青苹果 U+1F34F 蓝心U+1F499 绿心U+1F49A 黄心U+1F49B 紫心U+
我想知道,Unicode 中的每个字符都有一个代码点;字体中字符的类似术语是什么? 当解码文件需要映射到字体(或字体,通过一些现代字体替换技术)时,我从来没有理解过程的一部分。 例如,当文本编辑器从其
谁能告诉我 Unicode 可打印字符的范围是多少? [例如。 Ascii 可打印字符范围为\u0020 -\u007f] 最佳答案 参见,http://en.wikipedia.org/wiki/U
鉴于Unicode有been around for 18 years ,为什么还有不支持 Unicode 的应用程序?甚至我对某些操作系统和 Unicode 的体验至少可以说是痛苦的。正如乔尔·斯波尔
我要求计算 Unicode 中所有可能的有效组合的数量并附上解释。我知道一个 char 可以编码为 1、2、3 或 4 个字节。我也不明白为什么连续字节有限制,即使该字符的起始字节清除了它应该有多长。
Unicode 为中文字符分配了 U+4E00..U+9FFF。这是全套的一部分,但不是全部。 最佳答案 最终列表可以在 Unicode Character Code Charts 找到;在页面中搜索
我是一名优秀的程序员,十分优秀!