utf-8 - UTF-8 直接存储代码点的基本原理是什么？-6ren

utf-8 - UTF-8 直接存储代码点的基本原理是什么？

转载作者：行者123 更新时间：2023-12-02 02:43:42

26

4

UTF-8 将代码点的有效位存储在代码单元的低位中

U+0000-U+007F       0xxxxxxx
U+0080-U+07FF       110xxxxx    10xxxxxx
U+0800-U+FFFF       1110xxxx    10xxxxxx    10xxxxxx
U+10000-U+10FFFF    11110xxx    10xxxxxx    10xxxxxx    10xxxxxx

这需要解码器检查 over long sequences (如 C0 80 而不是 00 )并且还将可编码的代码点数量减少到固定字节数。如果它使用相同的编码但像这样映射代码点

前 128 个代码点 (U+0000—U+007F):1 个字节

接下来的 2048 个代码点(U+0080—U+087F):2 个字节。例如。 C0 81 : U+0081

接下来的 65536 个代码点(U+0880—U+1087F):3 个字节。例如。 E0 B0 B1 : U+0881

接下来的 131072 个代码点(U+10880—U+10FFFF，最多 U+20880):4 个字节。例如。 F0 B0 B0 B1 : U+10881

(即该值编码到范围开始的偏移量)

然后可以使用更短的序列编码更多的字符。解码也可能更快，因为它只需要添加一个常量，这通常比检查过长代码点的分支成本更低。事实上，如果我们从映射中删除代理对范围，可以将 2048 个字符压缩到 3 个字节中

那么为什么 UTF-8 以这种方式存储代码点呢？

最佳答案

基本原理在“餐垫”轶事中有详细记录，该轶事讲述了当 Unicode 人员(实际上是 X/Open 的某个人)联系他们审查草稿时，Ken Thompson 和 Rob Pike 如何在餐厅的餐垫上制定规范规范。

http://doc.cat-v.org/bell_labs/utf-8_history包含 Rob Pike 本人的叙述，以及他、Ken Thompson 和 X/Open 人员之间的通信。它将这一需求称为早期草案中缺失的关键部分之一:

the ability to synchronize a byte stream picked up mid-run, with less that one character being consumed before synchronization

换句话说，当您查看设置了高位的字节时，您可以仅从该字节值判断您是否处于 UTF-8 序列的中间，如果是，您需要倒带多远才能获得到多字节编码字符的开头。

完整的故事非常值得一读，所以我将在这里简要总结一下。以下是 Wikipedia article's history section.的一部分的删节版

By early 1992, the search was on for a good byte-stream encoding of multi-byte character sets. The draft ISO 10646 standard contained a non-required annex called UTF-1 that provided a byte stream encoding of its 32-bit code points. This encoding was not satisfactory on performance grounds, among other problems, and the biggest problem was probably that it did not have a clear separation between ASCII and non-ASCII ...

In July 1992, the X/Open committee XoJIG was looking for a better encoding. Dave Prosser of Unix System Laboratories submitted a proposal for one that had faster implementation characteristics and introduced the improvement that 7-bit ASCII characters would only represent themselves; all multi-byte sequences would include only bytes where the high bit was set. ...

In August 1992, this proposal was circulated by an IBM X/Open representative to interested parties. A modification by Ken Thompson of the Plan 9 operating system group at Bell Labs made it somewhat less bit-efficient than the previous proposal but crucially allowed it to be self-synchronizing, letting a reader start anywhere and immediately detect byte sequence boundaries. It also abandoned the use of biases and instead added the rule that only the shortest possible encoding is allowed; the additional loss in compactness is relatively insignificant, but readers now have to look out for invalid encodings to avoid reliability and especially security issues. Thompson's design was outlined on September 2, 1992, on a placemat in a New Jersey diner with Rob Pike. In the following days, Pike and Thompson implemented it and updated Plan 9 to use it throughout, and then communicated their success back to X/Open, which accepted it as the specification for FSS-UTF.

关于utf-8 - UTF-8 直接存储代码点的基本原理是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57431095/

26

4

0

文章推荐： Julia 使用环境变量 : Don't interpolate $ 运行外部程序

文章推荐： jupyter kernelspec 没有这样的文件或目录/lib/libstdc++.so.6.0.21

文章推荐： r - 你可以使用 R 中的 ar 函数拟合非平稳模型吗

C 直接/显式传递参数
如果我在 C 中调用一个函数并传入一个结构(对那些 C++ 读者来说不是通过指针或引用)，它会复制该对象。如果我传入一个包含数组的结构，它会复制该数组(如教授在类里面所说)。但是，如果我传入一个包含对
vim - 如何*直接*增加光标下的数字？
在 vim 等中，您可以使用 CTRLA 和 CTRLX 增加或减少光标所在的数字。然而，这会增加总数，但我想简单地增加光标正下方的数字。这有点难以描述，所以这就是我的意思: Ctrl+A usage
java - 直接 PropertyAccessor 的替代品？
我正在将 Spring 4.3.2 项目升级到 Spring 5.1.5。我的一个测试用例开始因错误而失败。 ClassNotFoundException: org.hibernate.propert
Java:直接 IntBuffer 的大小限制？
我想在 Java 中分配一个直接 IntBuffer，比如说 10 亿个元素(64 位系统)。我知道的唯一方法是创建一个直接 ByteBuffer 并将其视为直接 IntBuffer。但是，4*1,0
ajax - 直接 AJAX 打印
我正在寻找特定的打印机或某些打印机上存在的技术(接口(interface)、标准、协议(protocol))，这使得可以使用 AJAX 从 Web 浏览器实现直接打印。这意味着打印机必须: 网络接口
php - 直接 URL 和删除确认表
我正在寻求实现删除确认表单的最佳实践建议。除其他选项外，以下页面包含删除按钮... /website/features/f/123 ...当点击一个简单的表单时，会在以下 url 下加载: /web
java - 直接 Web 远程处理异步问题
我正在使用直接 Web 远程处理库在我的应用程序中执行一些 ajax 调用。我有一个问题，我认为归结为服务调用的延迟响应。以下是我认为有问题的部分代码。问题出在 getDefaultReviewerT
Javascript 直接 confirm() 函数替换
我想替换 Javascript confirm() 函数以允许自定义按钮而不是 Yes/Cancel。我尝试搜索，但所有解决方案都是事件驱动的，例如 jquery 对话框(代码不等待响应但它是事件驱动
java - 路径、相对、直接
我知道有几个类似的问题，但是，其中的示例并没有说明问题，或者我无法从中获利 - 我真可耻。所以我的问题是在带有 GUI 的简单应用程序中加载图像。例如: 我在 "D:\javaeclipseprog
html - 直接 child 的备用表行颜色
我想用不同的颜色为表格的行着色，所以我正在使用它 table#news tr:nth-child(even) { background-color: red; } table#news
java - 如何在Camel中使用**直接**端点实现并行处理？
下面的测试代码不起作用 from("direct:start").setExchangePattern(ExchangePattern.InOnly).threads(5).delay(2000).b
python - 直接 "plot"线段到numpy数组
我在 python 中实现的第一个项目之一是对棒渗流进行蒙特卡罗模拟。代码不断增长。第一部分是棍子渗滤的可视化。在宽度*长度的区域中，使用随机起始坐标和方向绘制具有一定长度的直棒的定义密度(棒/面积)
php - 跟踪(直接)文件下载的最佳方式
跟踪直接文件下载的最佳方法是什么？我找到了一些解决方案，例如这个: http://www.gayadesign.com/diy/download-counter-in-php-using-htacce
java - 直接 ByteBuffer 之前发生
我在一个线程中有一个直接的 ByteBuffer(堆外)，并使用 JMM 给我的一种机制将它安全地发布到另一个线程。 happens-before 关系是否扩展到由 ByteBuffer 包装的 na
java - 直接 ByteBuffer 相对与绝对读取性能
当我测试直接 java.nio.ByteBuffer 的读取性能时，我注意到绝对读取平均比相对读取快 2 倍。此外，如果我比较相对读取与绝对读取的源代码，除了相对读取维护和内部计数器外，代码几乎相同。
Angular 直接 DOM 访问？
我知道这个问题已经被问了无数次，并且在很多情况下都得到了答案。我相信我已经阅读了其中的大部分内容。不幸的是，我在这上面能找到的一切简单说明 ElementRef.nativeElement不好，不要
c - 直接 C 程序中的错误处理有什么好的习惯用法吗？
回到一些 C 语言工作。我的许多函数看起来像这样: int err = do_something(arg1, arg2, arg3, &result); 根据意图，结果由函数填充，返回值是调用的状态
xml - Worldpay 直接 XML
当我将 XML 提交到 https://secure-test.WorldPay.com/jsp/merchant/xml/paymentService.jsp 时: Personalised
opengl - XNA, 直接 X , OpenGL
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
Angular 直接 url 路由总是重定向到/home
我的 Angular 路由行为有问题。刷新或输入的 url 像/user 总是将我重定向到/home。我还在 index.html 文件中设置了。通过单击导航菜单按钮一切正常。但是一旦我尝试刷新页面

首页

博学

6Ren·AI

商城

utf-8 - UTF-8 直接存储代码点的基本原理是什么？