encoding - Windows-1252 和 ISO-8859-1 之间的确切区别是什么？-6ren

encoding - Windows-1252 和 ISO-8859-1 之间的确切区别是什么？

转载作者：行者123 更新时间：2023-12-02 18:50:37

37

4

我们在基于 Debian 的 LAMP 安装上托管 PHP 应用程序。一切都很好——性能、行政和管理方面。然而，作为新开发人员(我们还在高中)，我们在西方字符集的字符编码方面遇到了一些问题。

经过大量研究，我得出的结论是网上的信息有些困惑。它谈论的是 Windows-1252 是 ANSI 且完全是 ISO-8859-1兼容。

无论如何，Windows-1252(1/3/4) 和 Windows-1252(1/3/4) 之间有什么区别ISO-8859-1？
无论如何，ANSI 是从哪里来的呢？

我们应该在 Debian 服务器(和工作站)上使用什么编码以确保客户获得预期的所有信息方式，并且我们不会在途中丢失任何字符？

最佳答案

我想以一种更像网络的方式来回答这个问题，为了回答这个问题，我们需要一些历史。 Joel Spolsky写了很good introductionary article每个开发人员都应该了解 Unicode 字符编码的最低限度知识。请耐心听我说，因为这将有点像 looong回答。 :)

作为历史，我将引用其中的一些引述:(非常感谢乔尔!:))

The only characters that mattered were good old unaccented English letters, and we had a code for them called ASCII which was able to represent every character using a number between 32 and 127. Space was 32, the letter "A" was 65, etc. This could conveniently be stored in 7 bits. Most computers in those days were using 8-bit bytes, so not only could you store every possible ASCII character, but you had a whole bit to spare, which, if you were wicked, you could use for your own devious purposes.

And all was good, assuming you were an English speaker. Because bytes have room for up to eight bits, lots of people got to thinking, "gosh, we can use the codes 128-255 for our own purposes." The trouble was, lots of people had this idea at the same time, and they had their own ideas of what should go where in the space from 128 to 255.

所以现在“OEM 字符集”随 PC 一起分发，但它们仍然不同且不兼容。令我们当代人惊讶的是——一切都很好!他们没有互联网，人们很少在不同区域设置的系统之间交换文件。

乔尔继续说道:

In fact as soon as people started buying PCs outside of America all kinds of different OEM character sets were dreamed up, which all used the top 128 characters for their own purposes. Eventually this OEM free-for-all got codified in the ANSI standard. In the ANSI standard, everybody agreed on what to do below 128, which was pretty much the same as ASCII, but there were lots of different ways to handle the characters from 128 and on up, depending on where you lived. These different systems were called code pages.

这就是“Windows 代码页”最终诞生的方式。它们实际上是 DOS 代码页的“父级”。然后Unicode诞生了! :) 和 UTF-8是“用于存储 Unicode 代码点字符串的另一个系统”，实际上“从 0-127 的每个代码点都存储在单个字节中”，与 ASCII 相同。。我不会再详细讨论 Unicode 和 UTF-8，但您应该阅读 BOM , Endianness和 Character Encoding作为一名将军。

关于“ANSI阴谋”，微软实际上承认Windows-1252的错误标签在 glossary of terms :

The so-called Windows character set (WinLatin1, or Windows code page 1252, to be exact) uses some of those positions for printable characters. Thus, the Windows character set is NOT identical with ISO 8859-1. The Windows character set is often called "ANSI character set", but this is SERIOUSLY MISLEADING. It has NOT been approved by ANSI.

因此，ANSI 在引用 Windows 字符集时并未经过 ANSI 认证! :)

正如 Jukka 所指出的(感谢您的出色回答)

Windows-1252 ISO Latin 1, also known as ISO-8859-1 as a character encoding, so that the code range 0x80 to 0x9F is reserved for control characters in ISO-8859-1 (so-called C1 Controls), wheres in Windows-1252, some of the codes there are assigned to printable characters (mostly punctuation characters), others are left undefined.

但是，我个人的观点和技术理解是，Windows-1252 和 ISO-8859-1 都不是网络编码! :) 所以:

对于网页，请使用 UTF-8 作为内容编码因此，将数据存储为 UTF-8 并使用 HTTP Header“吐出” :Content-Type: text/html; charset=utf-8 .
还有一种称为 HTML 内容类型元标记: <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8">现在，浏览器在遇到此标记时实际执行的操作是再次从 HTML 文档的开头开始，以便可以按照声明的编码重新解释文档。仅当没有“Content-type” header 时才会发生这种情况。
如果系统的用户需要从系统生成文件，请使用其他特定编码。例如，一些西方用户可能需要 Excel 生成的文件，或 Windows-1252 中的 CSV。如果是这种情况，请在该区域设置中编码文本，然后将其存储在文件系统上并将其作为可下载文件提供。
在HTTP 设计中还有一件事需要注意:内容编码分发机制应该像这样工作。
I. 客户端通过“Accept”和“Accept-Charset”request headers 请求特定内容类型和编码的网页。 .
II.然后服务器(或 Web 应用程序)返回转码为该编码和字符集的内容。

大多数现代网络应用程序并非如此。 Web 应用程序以 UTF-8 形式提供(强制客户端)内容时实际发生了什么。这是有效的，因为浏览器根据响应 header 解释接收到的文档，而不是根据他们实际期望的内容。

我们都应该使用 Unicode，所以请尽可能使用 UTF-8 来分发您的内容，最重要的是适用。否则the elders of the Internet会困扰你! :)

附注可以找到一些有关在网页中使用 MS Windows 字符的更多精彩文章 here和 here .

关于encoding - Windows-1252 和 ISO-8859-1 之间的确切区别是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19109899/

37

4

0

文章推荐： windows-ce - 通过 USB 远程桌面到 Windows CE？

文章推荐： javascript - IE7 asp.net mvc加载错误

文章推荐： php - 在 PHP 中有很多下拉菜单的情况下处理 Select 选项

文章推荐： assembly - JNZ 和 CMP 组装说明

iso - ISO 8583 的完整声明
我想知道是否可以通过 ISO 8583 做一个完整的声明(在一个日期范围之间)，我看到 ATM 可以做完整的声明并且想知道他们使用什么方法。我知道余额查询和迷你报表可以在超过 8583 的 POS 设
iso - 7zip ISO 提取
我一直在尝试通过 7zip 和 WinRar 提取 ISO 镜像。这是我使用的命令行: 7z x -y "%Isocontents%\ISO.iso" -o%Newfolder% WinRar.ex
internationalization - 获取给定 IETF 语言标签(或 ISO 639-ISO 3166-1 对)的 ISO 15924 脚本代码
我正在将 ICU 集成到一些内部软件中。我希望能够获取诸如“en_US”之类的字符串并为其获取脚本名称“Latin”。 (虽然最终我实际上想要一个 ICU ScriptCode。) 我尝试使用 ICU
r - 使用仅包含 ISO 周的数据集将 ISO 周聚合为几个月
我的数据位于一个数据框中，其结构如下: df2 <- data.frame(Year = c("2007"), Week = c(1:12), Measurement = c(rnorm(12, me
SQL 获取 ISO 周的 "ISO Year"
我需要计算一周分配到的年份。例如，2003 年 12 月 29 日被指定为 2004 年的第一周(我认为这仅适用于欧洲)。您可以使用以下代码来查看: SELECT DATEPART(isowk, '2
android - 如何提取 ISO 文件，然后将其重新打包成可用的 ISO 文件？
我想做什么？我想提取 ISO 文件并编辑其中的文件，然后将其重新打包回 ISO 文件。 (正如你已经读过的) 我为什么要这样做？我想开始修改 PSP ISO，为此我必须使用游戏资源、 Assets
project-management - ISO 标准如何运作(尤其是 ISO 9126)
关闭。这个问题需要更多focused .它目前不接受答案。想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post . 2年前关闭。 Improve this questi
python - Python 中的 ISO 时间 (ISO 8601)
我有一个文件。在 Python 中，我想占用它的创建时间，并将其转换为 ISO time (ISO 8601) string 同时保留它是在 Eastern Time Zone 中创建的事实。 (美国
localization - ISO 639 语言列表，翻译成每种 ISO 639 语言
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
matplotlib - 二维标量场 : draw iso surface (iso line) with opacity
我在二维网格上有两个标量场。我想为第一个标量场绘制一条等值线，并根据第二个标量场设置其不透明度。我从 this SO answer 开始尝试使用 mayavi但我无法从 3D 切换到 2D。下面是
haskell - 为什么镜头包含用于 fromEnum/toEnum 的 Iso，而不包含用于显示/读取的 Iso？
假设您声明两个同构 showing :: (Read a, Show a) => Iso' String a showing = iso read show reading :: (Read a, S
python - 将 ISO 639-1 转换为 ISO 639-2
已关闭。此问题旨在寻求有关书籍、工具、软件库等的建议。不符合Stack Overflow guidelines准则。它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，
java - 在 Java 中检查字符串是否是 ISO 语言的 ISO 国家/地区的更简洁方法
假设有一个两个字符的String，它应该代表ISO 639国家或语言名称。你知道，Locale类有两个函数 getISOLanguages和 getISOCountries分别返回包含所有 ISO
iso - STEP 第 21 部分 (ISO 10303-21) CAD 文件中的值是否可以自由嵌入到实体中？
实体中的值是否可以自由嵌入到 ISO 10303-21 格式的文件中？在我看到的所有由 CAD 程序生成的示例中，length_measure 都嵌入在uncertainty_measure_wit
automation - Vagrant 是否可以直接使用操作系统 .ISO 安装镜像/或动态地从 ISO 创建 Vagrant 盒子？
是否可以从原始 ISO 自动创建用于操作系统安装的 Vagrant .box 文件？对我来说，Vagrant 提供的虚拟机上操作系统安装和配置的端到端自动化存在巨大差距。当然，VagrantBox
javascript - 使用 MomentJS 将 ISO 8601 转换为不同的 ISO 8601 格式
有没有办法实现这样的格式: 2003-09-25T14:00:00.000+1000 or 2003-09-25T14:00:00.000+1100 要这样转换 2003-09-25T14:00:00
java - ResolverStyle.STRICT 在 `@DateTimeFormat(iso = DateTimeFormat.ISO.DATE)` 中不起作用
我正在使用: @DateTimeFormat(iso = DateTimeFormat.ISO.DATE) @JsonFormat( pattern = "MM-dd-yyyy" ) private
java - 国家/地区代码 (iso-3166-1/iso-3166-2) 到经度和纬度
我需要将 iso-3166-1/iso-3166-2 代码转换为经度/纬度例子: 输入:“美国”，输出:(37.09024, -95.71289100000001)。输入“VE-O”，输出:(10
c++ - 基于 ISO-639/ISO-3166 的语言/国家语言环境名称与 Windows 名称之间的转换表
我想转换 POSIX 语言环境名称，例如 en_US、de_DEISO-639-1 和 ISO-3166 代码到 Windows English_United States、German_German
php - UTF-8 : successful conversion to iso-8859-1 but not to iso-8859-2
我在 MS Access 上有一个数据库，我通过调用 PDO 和 odbc 驱动程序将其与 PHP 一起使用。我的数据库中有法语、丹麦语和波兰语单词。法语和丹麦语没问题，但波兰语字符没办法，我只得到“

首页

博学

6Ren·AI

商城

encoding - Windows-1252 和 ISO-8859-1 之间的确切区别是什么？