- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
请为我解释一下,UTF16 是如何工作的?考虑到以下几点,我有点困惑:
那么,如果一个 UTF16 字符不总是 2 个字节长,那么它还能有多长呢? 3个字节?或者只有 2 的倍数?然后例如,如果有一个 winapi 函数想要知道一个宽字符串的字符大小,并且该字符串包含 2 个字符,每个字符长 4 个字节,那么该字符串的大小如何以字符为单位 计算?
它是 2 个字符长还是 4 个字符长? (因为它是8个字节长,而每个WCHAR是2个字节)
更新:现在我看到字符计数不一定是标准事物或 C++ 事物,所以我将在第二个问题中尝试更具体一些,关于“字符”的长度宽字符串:
在 Windows 上,具体来说,在 Winapi 中,在其广泛的功能(以 W 结尾)中,如何计算由 2 个 unicode 代码点组成的字符串中的字符数,每个代码点由 2 个代码单元(总共 8 个字节)组成?这样的字符串是 2 个字符长(与代码点数相同)还是 4 个字符长(与代码单元总数相同?)
或者,更通用:Windows 定义的“宽字符串中的字符数”是什么意思,是代码点数还是代码单元数?
最佳答案
简短回答:否。
C++ 标准未定义wchar_t
(基本字符单位)的大小(参见第 3.9.1 节第 5 段)。实际上,在 Windows 平台上它是两个字节长,而在 Linux/Mac 平台上它是四个字节长。
此外,字符以特定于字节序的格式存储。在 Windows 上,这通常意味着小端,但对于包含大端数据的 wchar_t
也是有效的。
此外,即使每个 wchar_t
都是两个(或四个)字节长,一个单独的字形(大致是一个字符)可能需要多个 wchar_t
,并且可能有表示它的方式不止一种。
一个常见的例子是字符 é(带尖音符号的拉丁文小写字母 E
),代码点 0x00E9。这也可以表示为“分解的”代码点序列 0x0065 0x0301(即 LATIN SMALL LETTER E
后跟 COMBINING ACUTE ACCENT
)。两者都有效;请参阅关于 Unicode equivalence 的维基百科文章获取更多信息。
简单地说,您需要知道或选择您将使用的编码。如果处理 Windows API,一个简单的选择是假设所有内容都是小端 UTF-16 存储在 2 字节 wchar_t
s 中。
在 Linux/Mac 上,UTF-8(使用 char
s)更为常见,API 通常采用 UTF-8。 wchar_t
被认为是浪费,因为它每个字符使用 4 个字节。
因此,对于跨平台编程,您可能希望在内部使用 UTF-8,并在调用 Windows API 时即时转换为 UTF-16。 Windows 提供 MultiByteToWideChar
和 WideCharToMultiByte
函数来执行此操作,您还可以找到简化使用这些函数的包装器,例如 ATL and MFC String Conversion Macros .
问题已更新为询问 Windows API 在询问字符串中的“字符数”时的含义。
如果 API 表示“字符串的大小(以字符为单位)”,它们指的是 wchar_t
的数量(或者如果您在编译时 char
的数量出于某种原因的非 Unicode 模式)。在那种特定情况下,您可以忽略一个 Unicode 字符可能占用多个 wchar_t
这一事实。这些 API 只是想填充缓冲区,并且需要知道它们有多少空间。
关于c++ - UTF16(例如 wide-winapi 函数所使用的)字符是否总是 2 个字节长?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4652519/
我不明白 int 63823 为何比 double 1.0 占用更少的空间。在这个特定实例中,int 中是否没有存储更多信息? 最佳答案 I don't understand how an int 6
这可能不是一个直接的代码问题,但它是一个经常出现在 SO 上的问题,我发现阅读它非常有用。 App Store - Help answering “Missing Compliance” (using
我在我们的应用程序中使用 syncfusion 寻呼机和下拉列表请打开以下链接。 https://stackblitz.com/edit/angular-nv6myv?file=src%2Fapp%2
以便解释指针和引用in this question我写了这段代码。 MyClass& MyClass::MyInstance() { static MyClass & myLoca
在 C 和 C++ 中,assert 是一个非常 重量级例程,将错误写入 stdout 并终止程序。在我们的应用程序中,我们实现了一个更强大的 assert 替代品,并为其提供了自己的宏。已尽一切努力
我已经创建了一个 MVC webApi 项目,现在我想使用身份验证和授权。我想我已经实现了这种安全措施,但由于某种原因,有些事情变糟了,当我编写我的凭据并尝试调用一些 webApi 方法时,显示消息“
我发现自己使用一种奇怪的方式向我的函数添加回调函数,我想知道是否有更通用的方式向函数添加回调函数,最好的情况是我的所有函数都检查最后给定的作为函数的参数,如果是,则将其用作回调。 我以前是这样的: v
几乎从来没有我只想获取某个 Remote 的情况;我总是想要所有的 Remote 。我认为这将是一个足够常见的用例,git 会考虑它(与他们有 pull.rebase true 的方式相同)。 那么,
我正在尝试使用 inarray 但它总是返回 true?有任何想法吗? (所有 li 均已显示) $("#select-by-color-list li").hide(); // get the se
我正在尝试为我公司的开发环境设置过期网址。我们使用 lighttpd在此环境中提供上传的文件,我发现 these docs这似乎相当有希望。 问题是我似乎根本无法让它工作,而且我有点不知所措,试图找出
我无法让“文件夹”外部变量工作。我总是得到[:]。 我正在 Windows 下的 Grails 上进行开发(这就是为什么外部配置文件看起来像 file:C:\path\to/file)。 我在另一个项
这个问题是出于对 PL 如何工作的好奇,而不是其他任何事情。 (它实际上是在查看与 Haskell 不同的 SML 时想到的,因为前者使用按值调用 - 但我的问题是关于 Haskell。) Haske
我有一个高速缓存内存模块,我希望它是可字寻址的,但有字节的写使能信号。 always @ (posedge clk) begin //stuff... if(write) begin
我正在处理一些代码,其中一个对象“foo”正在创建另一个对象对象“bar”,并向其传递一个Callable。之后 foo 将返回bar,然后我希望 foo 变得无法访问(即:可用于垃圾收集)。 我最初
我已将我的程序与此方法相关联: public static void CreateFileAssociation(string extension, string key, string descri
所以我正在进行目录遍历,但我无法让 opendir 按照我想要的方式工作。它总是无法打开我发送的目录,它给出了一些未知的错误。我通常传入 argv[1],但我放弃了,只是开始硬编码路径。 char *
这个问题在这里已经有了答案: How do I compare strings in Java? (23 个回答) 关闭 9 年前。 出于某种原因,我的(基本)程序总是打印我为 else 语句保留的
我不想冒为此提出破解的风险,因为它涉及 datetime 对象。基本上,我想按如下方式进行转换: 2010-04-21 06:37:53 -> 2010-04-21 06:40:00 2010-08-
我正在用 C 语言玩文件 I/O。我正在尝试使用 fgets 从一个文件中读取数据并将其输出到另一个文件。问题是它总是返回 NULL,因此没有任何内容被复制到输出文件中。这是我的代码: #includ
class MyClass { // empty class with no base class }; int main() { MyClass* myClass = new MyC
我是一名优秀的程序员,十分优秀!