encode - unicode/utf-8/utf-16和我本地编码GBK有什么关系？-6ren

encode - unicode/utf-8/utf-16和我本地编码GBK有什么关系？

转载作者：行者123 更新时间：2023-12-05 01:07:32

27

4

我注意到我在 Windows(中文版)上的文本文件在移植到 Ubuntu 时变成了乱码。
经过更多研究，我知道 Windows CN 版本的默认编码是 GBK，而 Ubuntu 是 utf-8，而 iconv可以做encode翻译，例如从GBK到utf-8:

iconv -f gbk -t utf-8 input.txt > output.txt

但我仍然对这些编码的关系感到困惑。这些是什么？它们之间的相同点和不同点是什么？

最佳答案

首先，它与操作系统无关，而与您用来读取文件的程序有关。

在裸 .txt 上，程序必须能够猜测编码，这并不总是可能的，但可能会起作用。在 html 上，编码作为元数据给出，因此浏览器不需要这样做。

二、你懂ASCII吗？你看到它是如何通过数字来表示符号的吗？如果不是，这是您的第一件事should learn now .

接下来，大家看到Unicode和UTF-XXX的区别了吗？您必须清楚，Unicode 只是数字(代码点)到字形(符号，包括汉字、ASCII 字符、埃及字符等)的映射。

另一方面，UTF-XXX 表示，给定一串字节，它们代表哪些 Unicode 数字(代码点)。因此，UTF-8 和 UTF-16 是表示 Unicode 的不同有效方式。

正如您想象的那样，与 ASCII 不同，UTF 和 GBK 都必须允许每个字符超过 1 个字节，因为它们的字节数远远超过 256 个。

在 GBK 中，所有字符都编码为 1 或 2 个字节。
由于 GBK 专门用于中文，因此它平均比 UTF-XXX 使用更少的字节来表示给定的中文文本，而更多地用于其他语言。

在 UTF-8 和 16 中，每个字形的字节数是可变的，因此您必须查看中文代码点使用了多少字节。

在 Unicode 中，中文字形位于 following ranges .然后，您必须查看 UTF-8 和 UTF-16 表示这些范围的效率。

根据维基百科关于 UTF-8 和 UTF-16 的文章，中文字形 4E00-9FFF 的第一个也是最常见的范围在 UTF-8 中表示为 2 或 3 个字节，而在 UTF-16 中则表示为 2 个字节。因此，如果您要使用大量中文，UTF-16 可能更有效。您还必须查看其他范围以查看每个字符使用了多少字节。

对于可移植性，最好的选择是 UTF，因为 UTF 几乎可以表示任何可能的字符集，因此观众更有可能被编程为正确解码。 GBK 的大小增益并没有那么大。

关于encode - unicode/utf-8/utf-16和我本地编码GBK有什么关系？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18426498/

27

4

0

文章推荐： gruntjs - Grunt 没有找到目标问题

文章推荐： rdf - SPARQL 更新中更新图中的变量

文章推荐： c - 杀死父进程的所有子进程但让父进程保持事件状态

python - 如何在json中将汉字编码为 'gbk'，格式化一个url请求参数String？
我想将一个字典转储为一个包含一些中文字符的 json 字符串，并用它格式化一个 url 请求参数。这是我的python代码: import httplib import simplejson as
javascript - GBK 编码/解码字符集
我从服务器收到一个包含以下内容的二进制数据包: var data = new Uint8Array([0xB2, 0xE2, 0xCA, 0xD4, 0x74, 0x65, 0x73, 0x74, 0
基于php导出到Excel或CSV的详解(附utf8、gbk 编码转换)
php导入到excel乱码是因为utf8编码在xp系统不支持所有utf8编码转码一下就完美解决了 utf-8编码案例 Php代码复制代码代码如下: <?php header(&quo
php - gbk 页面、domxpath 的编码问题
我正在尝试将下面的链接 curl ，该链接位于 GBK 中。我想提取产品和图像的标题。但是当我回显文件以测试它是否正常工作时，我没有得到汉字。我需要使用 domxpath 提取并在我的网站上显示字符，
javascript - 编码 GBK 2312 难题
我是一名业余编码员，我有一个小问题。我的目标是用两个按钮输入一个文本。第一个按钮使用了一些名为 SundayMorning 的 Javascript翻译文本(中文) 第二个按钮将文本提交给网址。
python - 在 Python 中将字符串编码为 gbk
我想看看不同的字符串在不同的编码中会是什么样子... 例如: >>> str1 = "asdf" >>> str1.encode('utf-16') '\xff\xfea\x00s\x00d\x00f
解决Python print 输出文本显示 gbk 编码错误问题
前阵子想爬点东西，结果一直提示错误UnicodeEncodeError: ‘gbk' codec can't encode character ‘\xa0' in position，在网上一查，发现
MySQL字符集 GBK、GB2312、UTF8区别解决MYSQL中文乱码问题
MySQL中涉及的几个字符集 character-set-server/default-character-set：服务器字符集，默认情况下所采用的。 character-
python - Unicode解码错误: 'gbk' codec can't decode bytes
我正在尝试使用pickler从文件中加载一个对象(自定义类Area)。我正在使用 python 3.1。该文件是使用 pickle.dump(area, f) 制作的我收到以下错误，我需要帮助尝试
UTF-8 GBK UTF8 GB2312 之间的区别和关系介绍
UTF-8包含全世界所有国家需要用到的字符，是国际编码，通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如，如果是UTF8编码，则在外国人的英文IE上也能显示中文，他们无需
javascript - 如何使用纯 JavaScript 将 GBK 转换为 UTF8？
我想从其他网站加载一些文本，内容是 GBK 编码，但我的网站是 UTF8。有什么办法可以将这些 GBK 文本转换为 UTF8 进行显示吗？由于某些原因，我只能使用 JavaScript 来实现此目
python - UnicodeDecodeError :'gbk' 编解码器无法解码位置 0 非法多字节序列中的字节 0x80
我用的是python 3.4，win 7 64位系统。我运行了以下代码: 6 """ load single batch of cifar """ 7 with ope
Python UnicodeEncodeError: 'gbk' codec can't encode character 解决方法
使用Python写文件的时候，或者将网络数据流写入到本地文件的时候，大部分情况下会遇到：UnicodeEncodeError: 'gbk' codec can't encode character
python - mysql-connector-python 无法使用 GBK 字符串 "赵孟頫"
看python shell中的代码: >>> s = u'赵孟頫'.encode('gbk') >>> s '\xd5\xd4\xc3\xcf\xee\\' '赵孟伟'的最后一个字节是\x5c，与反斜
java - 为什么我的 Java Charset.defaultCharset() 是 GBK 而不是 Unicode？
配置:Windows 8英文操作系统； JDK1.7； eclipse 。我安装了一个中国人写的软件，GUI是汉字。但该软件用方框显示丑陋。我在互联网上搜索并找到了修复它的方法。在Win8的控制面板
ruby-on-rails - ruby on rails 语言问题 "invalid byte sequence in GBK"
这绝对是一个语言问题，无论是我们的代码还是我们的数据库包含汉字。 ****这是我的环境: 关于您的应用程序的环境 ruby 版本 1.9.1 (i386-mingw32)RubyGems 版本 1.3
python - 统一码编码错误 : 'gbk' codec can't encode character: illegal multibyte sequence
我想从 url 中获取 html 内容，并用正则表达式解析 html 内容。但是 html 内容有一些多字节字符。所以我遇到了标题中描述的错误。谁能告诉我如何解决这个问题？最佳答案您需要编辑您的
mysql - Django，如何使用 [ORDER BY CONVERT (name USING gbk) ASC] 进行查询
我想使用 [ORDER BY CONVERT (name USING gbk) ASC] 进行查询，以便管理员更改/添加表单中的 foreignkey 列表可以按以下方式排序汉语拼音，可能吗？数据库
python - Unicode解码错误: 'gbk' codec can't decode byte when read json contains chinese
我正在从 Python 2 切换到 3 在我的 jupyter notebook 中代码是 file = "./data/test.json" with open(file) as data_file
python - Pyramid 可以将默认的 request.charset 从 utf-8 更改为 gbk 吗？
我是 Pyramid 的新手。我使用 python2.7、MSSQL、slqalchemy.mssql 并使用 gbk 字符集，而且我有很多旧数据。所以我把前面的html改成编码为gbk，使用如下代码

首页

博学

6Ren·AI

商城

encode - unicode/utf-8/utf-16和我本地编码GBK有什么关系？