- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我已经 seen >2 字节的 unicode 代码点,如 U+10000 可以成对编写,如 \uD800\uDC00
。它们似乎以半字节 d
开头,但我只注意到了这一点。
这个 split Action 叫什么,它是如何工作的?
最佳答案
UTF-8的意思是(用我自己的话说)处理的最小原子是一个字节(编码单元是1字节长)。我不知道从历史上看,但至少从概念上讲,UCS-2 和 UCS-4 Unicode 编码是最先出现的,而 UTF-8/UTF-16 似乎解决了 UCS-* 的一些问题。
UCS-2 表示每个字符使用 2 个字节而不是一个。这是一个固定长度的编码。 UCS-2 会按照您所说的那样保存每个代码点的字节串。问题是有些字符的代码点需要超过 2 个字节来存储它。因此,UCS-2 只能处理 Unicode 的一个子集(当然是 U+0000 到 U+FFFF 的范围)。
UCS-4 为每个字符使用 4 个字节,它足以存储任何 Unicode 代码点的位串,显然(Unicode 范围是从 U+000000 到 U+10FFFF)。
UCS-4 的问题在于 2 字节范围之外的字符非常非常少见,使用 UCS-4 编码的任何文本都会浪费太多空间。因此,使用 UCS-2 是更好的方法,除非您需要 2 字节范围之外的字符。
但同样,英文文本、源代码文件等主要使用 ASCII 字符,而 UCS-2 也有同样的问题:为主要使用 ASCII 字符的文本浪费太多空间(太多无用的零)。
这就是 UTF-8 所做的。 ASCII 范围内的字符按原样保存在 UTF-8 文本中。它只需要每个字符的代码点/ASCII 值的位串。因此,如果 UTF-8 编码的文本仅使用 ASCII 字符,则它与任何其他 Latin1 编码没有区别。不支持 UTF-8 的客户端可以仅使用 ASCII 字符处理 UTF-8 文本,因为它们看起来完全相同。这是一种向后兼容的编码。
从那时起(ASCII 范围外的 Unicode 字符),UTF-8 文本使用两个、三个或四个字节来保存代码点,具体取决于字符。
我不知道确切的方法,但是使用已知的位前缀将 bitestring 分成两个、三个或四个字节,以了解用于保存代码点的字节数。如果一个字节以 0 开头,则表示该字符是 ASCII 且仅使用 1 个字节(ASCII 范围为 7 位长)。如果它以 1 开头,则根据接下来的位使用两个、三个或四个字节对字符进行编码。
UTF-8 的问题是它需要太多的处理(它必须检查每个字符的前几位才能知道它的长度),特别是当文本不是英语的时候。例如,用希腊语编写的文本将主要使用两个字节的字符。
UTF-16 使用双字节代码单元来解决非 ASCII 文本的问题。这意味着处理的原子是 16 位字。如果一个字符编码不适合两个字节的代码单元,那么它将使用 2 个代码单元(四个字节)来对字符进行编码。这对两个代码单元称为代理对。我认为仅使用 2 字节范围内的字符的 UTF-16 文本等同于使用 UCS-2 的相同文本。
反过来,UTF-32 使用 4 字节代码单元,就像 UCS-4 一样。虽然我不知道它们之间的区别。
关于unicode - 高 unicode 代码点如何表示为两个代码点?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33642339/
Byte byte1=10; Short short1=20; Integer integer=30; 在上面的代码中自动装箱成功在这里查看下面的代码,我正在明确地进行 casitng,因为它默认将
这里有几个相关的问题。 根据标题,如果我们将变量类型指定为 long 或 float、double,为什么它是一个要求?编译器不会在编译时评估变量的类型吗? Java 将所有整型文字视为 int -
我最近一直在使用一些 bash 脚本,并且一直在浏览手册页。根据我收集到的信息,$(( )) 是否表示 expr 而 [ ] 是否表示 test? 对于 $(( )): echo $(( 5 + 3
我有 UILabel,其中显示了 int 值,我希望如果值以千为单位,例如 1000,那么标签应该在 2000 年及以后显示 1k 和 2k。如何实现? 最佳答案 这个怎么样? int myNum =
我正在自学 verilog 并尝试编写失败模型。我在指定部分遇到了以下 ck->q 延迟弧的建模,但无法理解它到底是做什么的。 (posege CK => (Q : 1'b1))=(0, 0); 谁能
考虑这样一个句子: John Smith travelled to Washington. 在美好的一天,名称标记者会将“约翰·史密斯”识别为一个人,将“华盛顿”识别为一个地方。然而,如果没有其他证据
有没有办法通过某种元处理器或预处理器告诉 JavaScript 单词 AND 等于 && 而单词 OR 等于 ||和 <> 等同于 !===? 也许将 THEN 等同于 { 结束到 不要! 最佳答案
我正在处理一个非常大的图,它有 5 亿个节点,节点的平均度为 100。所以它是一种稀疏图。我还必须存储每条边的权重。我目前正在使用两个 vector ,如下所示 // V could be 100 m
我想使用 Python 表示一组整数范围,其中可以动态修改该集合并测试其是否包含在内。具体来说,我想将其应用于文件中的地址范围或行号。 我可以定义我关心的地址范围: 200 - 400 450 -
>>> x = -4 >>> print("{} {:b}".format(x, x)) -4 -100 >>> mask = 0xFFFFFFFF >>> print("{} {:b}".forma
虽然代码不多,但简单明了 复制代码 代码如下: preg_match('/^(?!string)/', 'aa') === true 这个用来验证一个字符串是否是非'string'开头的,
我正在尝试创建一些 SQLAlchemy 模型,并且正在努力解决如何将 timedelta 正确应用于特定列的问题。 timedelta(以天为单位指定)作为整数存储在单独的表 (Shifts) 中,
“Range: bytes=0-” header 是什么意思?是整个文件吗?我尝试发回 0 个字节但没有成功,当我发送整个文件时它可以正常工作,但我在流式上下文中不止一次收到此请求,它看起来不正确。
要创建时间序列的 SAX 表示,您首先需要计算数据的 PAA(分段聚合近似),然后将答案映射到符号表。但是,在计算 PAA 之前,您需要对数据进行标准化。 我正在对数据进行标准化,但我不知道之后如何计
假设我有一个 RESTful、超文本驱动的服务来模拟冰淇淋店。为了帮助更好地管理我的商店,我希望能够显示每日报告,列出所售每种冰淇淋的数量和美元值(value)。 这种报告功能似乎可以作为名为 Dai
我需要以 RDF 格式表示句子。 换句话说,“约翰喜欢可乐”将自动表示为: Subject : John Predicate : Likes Object : Coke 有谁知道我应该从哪里开始?是否
我即将编写一个解析器,将文本文件逐行读取到不同类型的结构中,并将这些结构提供给回调(观察者或访问者 - 尚不确定)。 文本文件包含 MT-940 数据 - SWIFT 银行对帐单。 这些行由一个指定类
我主要是一名 C++ 开发人员,但我经常编写 Python 脚本。我目前正在为游戏编写骰子模拟器,但我不确定在 Python 中解决我的问题的最佳方法。 一共有三种玩家技能,每个玩家一强、中一、弱一。
在过去的 5 个小时里,我一直在寻找答案。尽管我找到了很多答案,但它们并没有以任何方式提供帮助。 我基本上要寻找的是任何 32 位无符号整数的按位异或运算符的数学、算术唯一表示。 尽管这听起来很简单,
我需要将依赖项存储在 DAG 中。 (我们正在细粒度地规划新的学校类(class)) 我们正在使用 rails 3 注意事项 宽于深 很大 我估计每个节点有 5-10 个链接。随着系统的增长,这将增加
我是一名优秀的程序员,十分优秀!