gpt4 book ai didi

unicode - UTF-8 是编码还是字符集?

转载 作者:行者123 更新时间:2023-12-03 12:35:47 26 4
gpt4 key购买 nike

我认为字符集的名称是“Unicode”,而“UTF-8”是 Unicode 字符集的特定编码的名称,但我经常看到术语“编码”和“字符集”在提及时互换使用到 UTF-8。

例如,

<meta charset="UTF-8">

对比
<?xml version="1.0" encoding="UTF-8" ?>

最佳答案

Is UTF-8 an encoding or a character set?



UTF-8 是一种编码,该术语在定义它的 RFC 中使用,下面引用。

I often see the terms "encoding" and "charset" used interchangeably



在 Unicode 出现之前,如果您想使用像西里尔字母或希腊字母这样的字母†,您需要使用一种仅编码为该字母中字符的编码。因此,术语编码和字符集经常被混为一谈,但它们的含义不同。

但是现在,Unicode 通常是您需要担心的唯一字符集,因为它包含您必须处理的大多数书面语言的字符,克林贡语除外。

† - 字母表,一种字符集,其中字符直接对应于口语中的声音。


字符集是从代码单元(整数)到字符、符号、字形或书面语言中的其他标记的映射。 Unicode 是将 21b 整数映射到 unicode 代码点的字符集。 Unicode 联盟的 glossary是这样描述的:

Unicode

  1. The standard for digital representation of the characters used in writing all of the world's languages. Unicode provides a uniform means for storing, searching, and interchanging text in any language. It is used by all modern computers and is the foundation for processing text on the Internet. Unicode is developed and maintained by the Unicode Consortium: http://www.unicode.org.
  2. A label applied to software internationalization and localization standards developed and maintained by the Unicode Consortium.


编码是从字符串到字符串的映射。 UTF-8 是一种将字节字符串(8b 整数)映射到代码点字符串(21b 整数)的编码。 Unicode 联盟将其称为 "character encoding scheme"它在 RFC 3629 中定义.

The originally proposed encodings of the UCS, however, were not compatible with many current applications and protocols, and this has led to the development of UTF-8

关于unicode - UTF-8 是编码还是字符集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15227667/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com