- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我注意到我在 Windows(中文版)上的文本文件在移植到 Ubuntu 时变成了乱码。
经过更多研究,我知道 Windows CN 版本的默认编码是 GBK,而 Ubuntu 是 utf-8,而 iconv
可以做encode翻译,例如从GBK到utf-8:
iconv -f gbk -t utf-8 input.txt > output.txt
最佳答案
首先,它与操作系统无关,而与您用来读取文件的程序有关。
在裸 .txt 上,程序必须能够猜测编码,这并不总是可能的,但可能会起作用。在 html 上,编码作为元数据给出,因此浏览器不需要这样做。
二、你懂ASCII吗?你看到它是如何通过数字来表示符号的吗?如果不是,这是您的第一件事should learn now .
接下来,大家看到Unicode和UTF-XXX的区别了吗?您必须清楚,Unicode 只是数字(代码点)到字形(符号,包括汉字、ASCII 字符、埃及字符等)的映射。
另一方面,UTF-XXX 表示,给定一串字节,它们代表哪些 Unicode 数字(代码点)。因此,UTF-8 和 UTF-16 是表示 Unicode 的不同有效方式。
正如您想象的那样,与 ASCII 不同,UTF 和 GBK 都必须允许每个字符超过 1 个字节,因为它们的字节数远远超过 256 个。
在 GBK 中,所有字符都编码为 1 或 2 个字节。
由于 GBK 专门用于中文,因此它平均比 UTF-XXX 使用更少的字节来表示给定的中文文本,而更多地用于其他语言。
在 UTF-8 和 16 中,每个字形的字节数是可变的,因此您必须查看中文代码点使用了多少字节。
在 Unicode 中,中文字形位于 following ranges .然后,您必须查看 UTF-8 和 UTF-16 表示这些范围的效率。
根据维基百科关于 UTF-8 和 UTF-16 的文章,中文字形 4E00-9FFF 的第一个也是最常见的范围在 UTF-8 中表示为 2 或 3 个字节,而在 UTF-16 中则表示为 2 个字节。因此,如果您要使用大量中文,UTF-16 可能更有效。您还必须查看其他范围以查看每个字符使用了多少字节。
对于可移植性,最好的选择是 UTF,因为 UTF 几乎可以表示任何可能的字符集,因此观众更有可能被编程为正确解码。 GBK 的大小增益并没有那么大。
关于encode - unicode/utf-8/utf-16和我本地编码GBK有什么关系?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18426498/
我想将一个字典转储为一个包含一些中文字符的 json 字符串,并用它格式化一个 url 请求参数。 这是我的python代码: import httplib import simplejson as
我从服务器收到一个包含以下内容的二进制数据包: var data = new Uint8Array([0xB2, 0xE2, 0xCA, 0xD4, 0x74, 0x65, 0x73, 0x74, 0
php导入到excel乱码是因为utf8编码在xp系统不支持所有utf8编码转码一下就完美解决了 utf-8编码案例 Php代码 复制代码 代码如下: <?php header(&quo
我正在尝试将下面的链接 curl ,该链接位于 GBK 中。我想提取产品和图像的标题。但是当我回显文件以测试它是否正常工作时,我没有得到汉字。我需要使用 domxpath 提取并在我的网站上显示字符,
我是一名业余编码员,我有一个小问题。 我的目标是用两个按钮输入一个文本。 第一个按钮使用了一些名为 SundayMorning 的 Javascript翻译文本(中文) 第二个按钮将文本提交给网址。
我想看看不同的字符串在不同的编码中会是什么样子... 例如: >>> str1 = "asdf" >>> str1.encode('utf-16') '\xff\xfea\x00s\x00d\x00f
前阵子想爬点东西,结果一直提示错误UnicodeEncodeError: ‘gbk' codec can't encode character ‘\xa0' in position,在网上一查,发现
MySQL中涉及的几个字符集 character-set-server/default-character-set:服务器字符集,默认情况下所采用的。 character-
我正在尝试使用pickler从文件中加载一个对象(自定义类Area)。我正在使用 python 3.1。 该文件是使用 pickle.dump(area, f) 制作的 我收到以下错误,我需要帮助尝试
UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,他们无需
我想从其他网站加载一些文本,内容是 GBK 编码,但我的网站是 UTF8。 有什么办法可以将这些 GBK 文本转换为 UTF8 进行显示吗? 由于某些原因,我只能使用 JavaScript 来实现此目
我用的是python 3.4,win 7 64位系统。我运行了以下代码: 6 """ load single batch of cifar """ 7 with ope
使用Python写文件的时候,或者将网络数据流写入到本地文件的时候,大部分情况下会遇到:UnicodeEncodeError: 'gbk' codec can't encode character
看python shell中的代码: >>> s = u'赵孟頫'.encode('gbk') >>> s '\xd5\xd4\xc3\xcf\xee\\' '赵孟伟'的最后一个字节是\x5c,与反斜
配置:Windows 8英文操作系统; JDK1.7; eclipse 。 我安装了一个中国人写的软件,GUI是汉字。但该软件用方框显示丑陋。我在互联网上搜索并找到了修复它的方法。在Win8的控制面板
这绝对是一个语言问题,无论是我们的代码还是我们的数据库包含汉字。 ****这是我的环境: 关于您的应用程序的环境 ruby 版本 1.9.1 (i386-mingw32)RubyGems 版本 1.3
我想从 url 中获取 html 内容,并用正则表达式解析 html 内容。但是 html 内容有一些多字节字符。所以我遇到了标题中描述的错误。 谁能告诉我如何解决这个问题? 最佳答案 您需要编辑您的
我想使用 [ORDER BY CONVERT (name USING gbk) ASC] 进行查询,以便管理员更改/添加表单中的 foreignkey 列表可以按以下方式排序汉语拼音,可能吗? 数据库
我正在从 Python 2 切换到 3 在我的 jupyter notebook 中代码是 file = "./data/test.json" with open(file) as data_file
我是 Pyramid 的新手。我使用 python2.7、MSSQL、slqalchemy.mssql 并使用 gbk 字符集,而且我有很多旧数据。所以我把前面的html改成编码为gbk,使用如下代码
我是一名优秀的程序员,十分优秀!