python - 我如何理解编码错误的消息？-6ren

python - 我如何理解编码错误的消息？

转载作者：太空狗更新时间：2023-10-29 18:24:47

26

4

---------------------------
ƒGƒ‰[
---------------------------
ƒfƒBƒXƒvƒŒƒCƒ‚[ƒh‚ªÝ’è‚Å‚«‚Ü‚¹‚ñ.
---------------------------
OK   
---------------------------

我从 Shooter's Solitude system 4 中得到了这条明确的错误信息，在我喂它之后this version of d3drm.dll (叹气。)

为方便起见，这里有一个 hexdump:

00000000  c6 92 66 c6 92 42 c6 92  58 c6 92 76 c6 92 c5 92  |..f..B..X..v....|
00000010  c6 92 43 c6 92 e2 80 9a  c2 81 5b c6 92 68 e2 80  |..C.......[..h..|
00000020  9a c2 aa c2 90 c3 9d e2  80 99 c3 a8 e2 80 9a c3  |................|
00000030  85 e2 80 9a c2 ab e2 80  9a c3 9c e2 80 9a c2 b9  |................|
00000040  e2 80 9a c3 b1 2e 0a                              |.......|
00000047

您如何将其转化为连贯的错误消息——也就是说，您将如何为该错误消息找到正确的编码/解码对？

这是我尝试过的。

我猜问题是开发人员为此消息使用了错误的编码设置(考虑到游戏的年龄，为 WinXP 开发，这不足为奇)。通过查看它，有人会猜测消息是以某种多字节编码方式编码的(ƒf ƒB ƒX ƒv ƒŒ。)

然而，每个组似乎由三个字节组成(变量？)。这排除了通常的嫌疑人:

>>> wat = "ƒfƒBƒXƒvƒŒƒCƒ‚[ƒh‚ªÝ’è‚Å‚«‚Ü‚¹‚ñ. "
>>> wat.encode("UTF-8").decode("UTF-32")
UnicodeDecodeError: 'utf32' codec cannot decode bytes in position 0-3:
codepoint not in range(0x110000)
>>> wat.encode("UTF-8").decode("UTF-16")
UnicodeDecodeError: 'utf16' codec cannot decode bytes in position 70-70:
truncated data
>>> wat.encode("UTF-8")[:-1].decode("UTF-16")
'鋆왦䊒鋆왘皒鋆鋅鋆왃\ue292骀臂왛梒胢슚슪쎐\ue29d馀ꣃ胢쎚\ue285骀ꯂ胢쎚\ue29c骀맂胢쎚⺱'
#meaningless according to Google Translate.

我选择 UTF-8 作为起始编码，因为 ASCII 不起作用(UnicodeEncodeError: 'ascii' codec can't encode character '\u0192' in position 0: ordinal not in range(128)) 和 UTF-8 应该是 Windows 7 的默认编码(我尝试使用的操作系统。)

不完全是。

Kabie 可能有所作为，但这还不是全部。首先，我无法重现他的编码:

>>> print (wat.encode("UTF-8").decode("Shift-JIS"))
UnicodeDecodeError: 'shift_jis' codec cannot decode bytes in position 22-23: illegal multibyte sequence
>>> print (wat.encode("UTF-8")[:22].decode("Shift-JIS"))
ﾆ断ﾆ達ﾆ湛ﾆ致ﾆ椎槌辰ﾆ停

维基百科说那里有一个非常相似的编码:cp932。

>>> print(wat.encode("UTF-8").decode("932"))
UnicodeDecodeError: 'cp932' codec cannot decode bytes in position 44-45: illegal multibyte sequence
>>> print(wat.encode("UTF-8")[:44].decode("932"))
ﾆ断ﾆ達ﾆ湛ﾆ致ﾆ椎槌辰ﾆ停喙ﾆ檀窶堋ｪﾃ昶凖ｨ窶堙

同样，与他粘贴的非常不同。然而，让我们看看:

>>> print("ディスプレイモ\x81[ドが\x90ﾝ定できません.\n")
ディスプレイモ[ドがﾝ定できません.

然而，这对谷歌翻译来说是垃圾。然后我试图删除一些零碎的东西。考虑到ドイスプレイ的意思是“显示”，如果我删除无法解码的位周围的“垃圾”，我会得到:

  ディスプレイモ\x81[ドが\x90ﾝ定できません.
→ ディスプレイ      ドが    ﾝ定できません.
→ The display mode is not specified.

但是，由于我是在 SO 上提问的，所以这不是完整的故事。 那些无法解码的字节是怎么回事？您将如何获取这些字节。

最佳答案

=== 文件 disupure.py ===

# start with the OP's hex dump:
hexbytes = """
c6 92 66 c6 92 42 c6 92  58 c6 92 76 c6 92 c5 92
c6 92 43 c6 92 e2 80 9a  c2 81 5b c6 92 68 e2 80
9a c2 aa c2 90 c3 9d e2  80 99 c3 a8 e2 80 9a c3
85 e2 80 9a c2 ab e2 80  9a c3 9c e2 80 9a c2 b9
e2 80 9a c3 b1 2e 0a
"""
strg = ''.join(
    chr(int(hexbyte, 16))
    for hexbyte in hexbytes.split()
    )
uc = strg.decode('utf8') # decodes OK but result is gibberish
uc_hex = ' '.join("%04X" % ord(x) for x in uc)
print uc_hex
# but it's stuffed ... U+0192??? oh yeah, 0x83
badenc = 'cp1252' # sort of, things like 0x81 have to be allowed for
fix_bad = {}
for i in xrange(256):
    b = chr(i)
    try:
        fix_bad[ord(b.decode(badenc))] = i
    except UnicodeDecodeError:
        fix_bad[i] = i

recoded = uc.translate(fix_bad).encode('latin1')
better_uc = recoded.decode('cp932')
# It's on Windows; cp932 what would have been used
# but 'sjis' gives the same answer
better_uc_hex = ' '.join("%04X" % ord(x) for x in better_uc)
print better_uc_hex
print repr(better_uc)
print better_uc

在 IDLE 中运行的结果(为清楚起见添加了空白行):

0192 0066 0192 0042 0192 0058 0192 0076 0192 0152 0192 0043 0192 201A 0081 005B 0192 0068 201A 00AA 0090 00DD 2019 00E8 201A 00C5 201A 00AB 201A 00DC 201A 00B9 201A 00F1 002E 000A

30C7 30A3 30B9 30D7 30EC 30A4 30E2 30FC 30C9 304C 8A2D 5B9A 3067 304D 307E 305B 3093 002E 000A

u'\u30c7\u30a3\u30b9\u30d7\u30ec\u30a4\u30e2\u30fc\u30c9\u304c\u8a2d\u5b9a\u3067\u304d\u307e\u305b\u3093.\n'

ディスプレイモードが設定できません.

谷歌翻译:您可以设置显示模式。

Microsoft (Bing) 翻译:未设置显示模式。

更新关于为什么需要翻译表，以及为什么它将 \x81 等映射到 U+0081 的更多解释，来自 Wikipedia article on cp1252 :

According to the information on Microsoft's and the Unicode Consortium's websites, positions 81, 8D, 8F, 90, and 9D are unused. However the Windows API call for converting from code pages to Unicode maps these to the corresponding C1 control codes.

关于python - 我如何理解编码错误的消息？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4298402/

26

4

0

文章推荐： c# - Unity3D : Blur the background of a UI canvas

文章推荐： angular - 如何将 Video.js 与 Ionic 2 + Angular 2 一起使用

文章推荐： c# - 配置kafka-net停止发送最新消息

文章推荐： python - 学习 Python : simple functions to write

css - 网站的自定义 CSS 编码/编码 block
我对自定义 CSS 或在将图像作为 Logo 上传到页面时使用编码 block 有疑问。我正在为我的网站使用 squarespace，我需要帮助编码我的 Logo 以使其适合每个页面。一个选项是使用自
Golang 编码/json 编码(marshal)拆收器
如 encoding/json 包文档中所述， Marshal traverses the value v recursively. If an encountered value implement
Java 编码 - 相当于 Java 中的 sjisMS 编码
我必须做一些相当于Java中的iconv -f utf8 -t sjisMS $INPUT_FILE的事情。该命令在 Unix 中我在java中没有找到任何带有sjisMS的编码。 Java中有Sh
PHP 5.6 编码 latin1 MySQL 编码
从 PHP 5.3 迁移到 PHP 5.6 后，我遇到了编码问题。我的 MySQL 数据库是 latin1，我的 PHP 文件是 windows-1251。现在一切都显示为“ñëåäíèòå àäðå
r - 文件错误(文件名， "r"，编码=编码): cannot open the connection
我有一个 RScript文件(我们称之为 main.r )，它引用了另一个文件，使用以下代码: source("functions.R") 但是，当我运行 RScript 文件时，它提示以下错误:
java - 处理 RPC/编码 Web 服务中的 SOAP 编码
我无法设法从 WSDL 创建 RPC/编码风格的代码 - 有谁知道哪个框架可以做到这一点？带有 adb 和 xmlbeans 映射的 Axis2 无法正常工作(无法处理响应中的肥皂编码)直接使用 X
Node.Js Express-Generator 项目生成器错误(编码 && 编码.toLowerCase()
安装了最新版本的Node.Js()和npm包**(1.2.10)**当我运行 Express 命令来生成项目时，它向我抛出以下错误 buffer.js:240 switch (encoding &
javascript - JavaScript 中的 JSON 编码/解码 base64 编码/解码
JavaScript中有JSON编码/解码base64编码/解码函数吗？最佳答案是的，btoa() 和 atob() 在某些浏览器中可以工作: var enc = btoa("this is so
python - 为什么有些字符串采用 utf-16 编码，而另一些字符串仅采用 utf-8 编码？
>>> unicode('восстановление информации', 'utf-16') Traceback (most recent call last): File "", line
html - 是否有一个 JDK 类来进行 HTML 编码(但不是 URL 编码)？
我当然熟悉 java.net.URLEncoder 和 java.net.URLDecoder 类。但是，我只需要 HTML 样式的编码。 (我不想将 ' ' 替换为 '+' 等)。我不知道任何只做
utf-8 - SSIS - 平面文件始终采用 ANSI 编码，从不采用 UTF-8 编码
有一个非常简单的 SSIS 包: OLE DB Source 通过 View 获取数据(数据库表 nvarchar 或 nchar 中的所有字符串列)。派生列，用于格式化现有日期并将其添加到数据集(
node.js - golang base64 编码 vs nodejs 缓冲区 base64 编码
我正在使用一个在 Node 中进行base64编码的软件，如下所示: const enc = new Buffer('test', 'base64') console.log(enc) 显示: 我正
hibernate 编码
我试图将带有日语字符的数据插入到 oracle 数据库中。事情是保存在数据库中的是一堆倒置的问号。我该如何解决这个问题最佳答案见 http://www.errcode.net/blogs/?p=6
Java解压奇怪的字符(编码？)
当我在 java 中解压 zip 文件时，我发现文件名中出现了带有重音字符的奇怪行为。西索: Add File user : L'equipe Technique -- Folder : spec
JavaScript 编码
在网上冲浪我找到了 ExtJS 的 Ext.Gantt 插件，该扩展有一个特殊的编码。任何人都知道如何编码那样或其他复杂的形式。 Encoded Gantt Chart 最佳答案它似乎被 Dean
编码，将一个整数写入文件中
我正在用C语言做一个编码任务，我进展顺利，直到读取符号并根据表格分配相应的代码的部分。我必须连接几个代码，直到它们的长度达到 32 位，为此我必须将它们写入一个文件中。这种写入文件的方法给我带来了很多
Javascript 编码
我有一个外部链接的 javascript 文件。在那个 javascript 里面，我有这个功能: function getMonthNumber(monthName){ monthName = mo
python 编码
使用mechanize，我检索到一个网页的源页面，其中包含一些非ASCII字符，比如汉字。代码如下: #using python2.6 from mechanize import Browser b
读取文件时的C#编码
我有一个包含字母 ø 的文件。当我用这段代码 File.ReadLines(filePath) 读取它时，我得到了一个问号而不是它。当我像这样添加编码时 File.ReadLines(filePat
python特殊字符解码/编码
如何翻译下面的字符串 H.P. Dembinski, B. K\'{e}gl, I.C. Mari\c{s}, M. Roth, D. Veberi\v{c} 进入 H. P. Dembinski,

首页

博学

6Ren·AI

商城