- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我将字节流解码为 unicode 字符,而不知道大约一百个发送者中每个人使用的编码。
许多发件人在技术上并不精明,无法告诉我他们正在使用什么编码。这将取决于他们用来生成数据的工具链的偶然性。
目前,发件人都是基于英国/英语的,使用各种操作系统。
我可以要求所有发件人向我发送一个特定的字符串,以明确地表明每个发件人正在使用什么编码吗?
我知道有些库使用启发式方法来猜测编码 - 我也会追查它,作为运行时后备,但首先我想尝试确定正在使用的编码,如果我可以。
(不认为这相关,但我正在使用 Python 工作)
最佳答案
这个问题的完整答案取决于很多因素,例如各种上游系统使用的编码范围,以及您的用户遵守在文本字段中输入魔术字符序列的说明的程度,以及熟练程度如何他们将使用晦涩的键盘组合来输入神奇的字符序列。
有一些非常简单的字符序列,只有某些用户才能输入。只有使用西里尔字母键盘和编码的用户会发现很容易键入“Ильи́ч”(Ilyich),因此您只需区分支持西里尔字母的编码,例如 UTF-8、UTF-16、iso8859_5 和 koi8_r。同样,您可以想出日语、中文和韩语字符序列来区分日语、简体中文、繁体中文和韩语系统的用户。
但是让我们关注西欧计算机系统的用户以及 ISO-8859-15、Mac_Roman、UTF-8、UTF-16LE 和 UTF-16BE 等常见编码。一个非常简单的测试是让用户输入欧元字符“€”、U+20AC,然后查看生成的字节序列:
您应该检查这些字节序列中的每一个(解释为任何可能的编码)不是用户可能自己键入的字符序列。例如,iso-8859-15 欧元符号的“\xa4”也可以是“¤”的 iso-8859-1 或 cp1252 或 UTF-16le 编码、“§”的 Macroman 编码或第一个字节数千个 UTF-16 字符中的任意一个,例如 U+A4xx Yi 音节或 U+01A4 拉丁小写字母 OI。它不是 UTF-8 序列的有效第一个字节。如果您的某些用户用 Yi 提交文本,您可能会遇到问题。
Python 3.x documentation, 7.2.3. Standard Encodings列出了 Python 标准库可以轻松处理的字符编码。以下程序可让您了解如何通过各种编码将测试字符序列编码为字节:
>>> for e in ['iso-8859-1','iso-8859-15', 'utf-8', 'utf-16be', 'utf-16le', \
... 'cp1252', 'macroman']:
... print e, list( euro.encode(e, 'backslashreplace'))
因此,作为一种权宜之计、令人满意的技巧,如果编码存在任何问题,请考虑告诉用户键入“€”作为文本字段的第一个字符。然后您的系统应该将上述任何字节序列解释为编码线索,并丢弃它们。如果用户想要以欧元字符开始文本内容,则他们以“€€”开始字段;第一个被吞掉了,第二个仍然是文本的一部分。
关于unicode - 源应该发送什么字符串来消除他们正在使用的字节编码的歧义?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12059957/
如何使用 SPListCollection.Add(String, String, String, String, Int32, String, SPListTemplate.QuickLaunchO
我刚刚开始使用 C++ 并且对 C# 有一些经验,所以我有一些一般的编程经验。然而,似乎我马上就被击落了。我试过在谷歌上寻找,以免浪费任何人的时间,但没有结果。 int main(int argc,
这个问题已经有答案了: In Java 8 how do I transform a Map to another Map using a lambda? (8 个回答) Convert a Map>
我正在使用 node + typescript 和集成的 swagger 进行 API 调用。我 Swagger 提出以下要求 http://localhost:3033/employees/sear
我是 C++ 容器模板的新手。我收集了一些记录。每条记录都有一个唯一的名称,以及一个字段/值对列表。将按名称访问记录。字段/值对的顺序很重要。因此我设计如下: typedef string
我需要这两种方法,但j2me没有,我找到了一个replaceall();但这是 replaceall(string,string,string); 第二个方法是SringBuffer但在j2me中它没
If string is an alias of String in the .net framework为什么会发生这种情况,我应该如何解释它: type JustAString = string
我有两个列表(或字符串):一个大,另一个小。 我想检查较大的(A)是否包含小的(B)。 我的期望如下: 案例 1. B 是 A 的子集 A = [1,2,3] B = [1,2] contains(A
我有一个似乎无法解决的小问题。 这里...我有一个像这样创建的输入... var input = $(''); 如果我这样做......一切都很好 $(this).append(input); 如果我
我有以下代码片段 string[] lines = objects.Split(new string[] { "\r\n", "\n" }, StringSplitOptions.No
这可能真的很简单,但我已经坚持了一段时间了。 我正在尝试输出一个字符串,然后输出一个带有两位小数的 double ,后跟另一个字符串,这是我的代码。 System.out.printf("成本:%.2
以下是 Cloud Firestore 列表查询中的示例之一 citiesRef.where("state", ">=", "CA").where("state", "= 字符串,我们在Stack O
我正在尝试检查一个字符串是否包含在另一个字符串中。后面的代码非常简单。我怎样才能在 jquery 中做到这一点? function deleteRow(locName, locID) { if
这个问题在这里已经有了答案: How to implement big int in C++ (14 个答案) 关闭 9 年前。 我有 2 个字符串,都只包含数字。这些数字大于 uint64_t 的
我有一个带有自定义转换器的 Dozer 映射: com.xyz.Customer com.xyz.CustomerDAO customerName
这个问题在这里已经有了答案: How do I compare strings in Java? (23 个回答) 关闭 6 年前。 我想了解字符串池的工作原理以及一个字符串等于另一个字符串的规则是
我已阅读 this问题和其他一些问题。但它们与我的问题有些无关 对于 UILabel 如果你不指定 ? 或 ! 你会得到这样的错误: @IBOutlet property has non-option
这两种方法中哪一种在理论上更快,为什么? (指向字符串的指针必须是常量。) destination[count] 和 *destination++ 之间的确切区别是什么? destination[co
This question already has answers here: Closed 11 years ago. Possible Duplicates: Is String.Format a
我有一个Stream一个文件的,现在我想将相同的单词组合成 Map这很重要,这个词在 Stream 中出现的频率. 我知道我必须使用 collect(Collectors.groupingBy(..)
我是一名优秀的程序员,十分优秀!