gpt4 book ai didi

Emacs 23 使用的字符集比 Unicode 大四倍 - 为什么?

转载 作者:行者123 更新时间:2023-12-03 18:14:12 25 4
gpt4 key购买 nike

来自 Emacs 23.1 NEWS :

*** The Emacs character set is now a superset of Unicode. (It has about four times the code space, which should be plenty).



稍后会提供更多详细信息:

*** In multibyte buffers and strings, characters are represented by UTF-8 byte sequences. The character code space is now 0x0..0x3FFFFF with no gap; code points 0x0..0x10FFFF are Unicode characters of the same code points, while code points 0x3FFF80..0x3FFFFF are raw 8-bit bytes.



根据维基百科, BMPUCS有65536个字符,最新版 Unicode包含超过 107000 个字符,UCS 拥有超过一百万个代码点。 0x3FFFFF 超过四百万。

可以解决哪些问题,或者拥有作为 Unicode 超集的内部字符集有什么好处?

最佳答案

Unicode 旨在包含所有人类语言所需的字符集,这对于代码的全局化/本地化当然很有用,但由于 Emacs 是众神本身的工具,因此它还必须包含神可能使用的每个字符各种(包括但不限于远古时代的诡异 rune )、太空种族(包括但不限于我们 future 的外星霸主)、超智能机器智能(包括但不限于我们 future 的机器人大师) 以及其他所有渴望无限宇宙力量的生物。那可能是很多字符!

或者它可能与 UTF-8 是一种编码字符的方式有关,它比 Unicode 集占用的空间大得多,而 Emacs 只支持整个 UTF-8,但我更喜欢上面的解释。

关于Emacs 23 使用的字符集比 Unicode 大四倍 - 为什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1674236/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com