gpt4 book ai didi

macos - Unicode 与格式

转载 作者:行者123 更新时间:2023-12-03 16:29:10 25 4
gpt4 key购买 nike

我想将一堆表情符号添加到数组中。来自 my earlier question我找到了如何在 NSString 中编写表情符号图标。现在我想创建一个循环并将这些图标添加到数组中。这应该相当容易,因为 unicodes 在一定的范围内,所以类似下面的代码应该可以做到:

for (int i = 0; i < 10; i++)
[someArray addObject:[NSString stringWithFormat:@"\U0001F43%i", i]];

问题是,这样做时我收到一条错误消息:

Incomplete universal character name.

有谁知道有什么方法可以做到这一点吗?

最佳答案

这是因为转义序列 \Uxxxxxxxx 由编译器计算,并将其替换为相应的 Unicode 代码点。然后,当方法 stringWithFormat: 时,会将格式说明符 %i 替换为 i 的十进制表示形式。最终的字符串是 \Uxxxxxxxx 对应的字符和表示 i 的字符的串联。 stringWithFormat:用其他字符替换字符;它不会改变现有的字符。

但问题是,这里编译器看到一个不完整的转义序列,因为你只写了 7 个十六进制数字。因此它无法生成字符串并引发错误。

解决方案是在运行时生成字符(一个简单的整数值),并使用 +[NSString stringWithCharacters:length] 创建一个字符串。

但是如果您查看 header ,您会发现 NSString 将其字符存储为 unichar,它被定义为 unsigned Short ,即 16 位长的值,而 Unicode 代码点 U+1F430 (🐰) 需要至少 17 位。

因此您不能使用单个 unichar 字符来表示该代码点。但不用担心:您可以使用两个字符来表示它。

你迷路了吗?这里解释一下! Unicode 不定义字符,它定义代码点,这些代码点是 U+0000U+10FFFF 范围内的任意整数值。然后,实现决定如何使用字符表示这些代码点。该实现可以使用任何它想要的数据类型作为字符,只要它能够表示所有有效的代码点。最简单的解决方案是使用 32 位长的整数,但这需要太多内存,因为您使用的大多数代码点都在第一个 Unicode 计划中 (U+0000U+ FFFF)。因此 NSString 存储带有 UTF-16 encoding 的代码点它使用 16 位长的字符。

在 UTF-16 中,U+FFFF 之外的每个代码点都使用 0xD800 范围内的一对字符(称为代理对)进行存储>0xDFFF(相应的代码点在 Unicode 标准中明确保留)。

总之,任何有效的 Unicode 代码点都可以使用一个或两个 unichar 字符来表示。 there 描述了执行此操作的方法。 。这是一个简单的实现:

static NSString *stringWithCodePoint(uint32_t codePoint)
{
// NOTE: As I edited the answer, you'll find a simpler implementation of
// this function below

unichar characters[2];
NSUInteger length;

if ( codePoint <= 0xD7FF || (codePoint >= 0xE000 && codePoint <= 0xFFFF) ) {
characters[0] = codePoint;
length = 1;
}
if ( codePoint >= 0x10000 && codePoint <= 0x10ffff ) {
codePoint -= 0x10000;
characters[0] = 0xD800 + (codePoint >> 10);
characters[1] = 0xDC00 + (codePoint & 0x3ff);
length = 2;
}
else {
length = 0; // invalid code point
}

return [NSString stringWithCharacters:characters length:length];
}

现在我们可以从任何有效的代码点生成字符串,我们只需要更新代码以使用我们之前编写的函数:

for (int i = 0; i < 10; i++)
[someArray addObject:stringWithCodePoint(0x0001F430 + i)];

编辑:我刚刚想出了一个更简单的方法来从代码点获取NSString。它通过使用 -[NSString initWithBytes:length:encoding:]NSUTF32StringEncoding 编码来工作:

static NSString *stringWithCodePoint(uint32_t codePoint)
{
NSString *string = [[NSString alloc] initWithBytes:&codePoint length:4 encoding:NSUTF32StringEncoding];
// You may remove the next 3 lines if you use ARC
#if ! __has_feature(objc_arc)
[string autorelease];
#endif
return string;
}

关于macos - Unicode 与格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11213172/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com