python - chardet 在 Big5 上显然是错误的-6ren

python - chardet 在 Big5 上显然是错误的

转载作者：太空宇宙更新时间：2023-11-04 01:41:09

42

4

我正在解码一个大型(大约 1 GB)的平面文件数据库，它随意混合了字符编码。到目前为止，python 模块 chardet 在识别编码方面做得很好，但如果遇到了绊脚石......

In [428]: badish[-3]
Out[428]: '\t\t\t"Kuzey r\xfczgari" (2007) {(#1.2)}  [Kaz\xc4\xb1m]\n'

In [429]: chardet.detect(badish[-3])
Out[429]: {'confidence': 0.98999999999999999, 'encoding': 'Big5'}

In [430]: unicode(badish[-3], 'Big5')
---------------------------------------------------------------------------
UnicodeDecodeError                        Traceback (most recent call last)

~/src/imdb/<ipython console> in <module>()

UnicodeDecodeError: 'big5' codec can't decode bytes in position 11-12: illegal multibyte sequence

chardet 报告对它的编码选择非常有信心，但它不解码......还有其他明智的方法吗？

最佳答案

不能过分强调的一点:您不应该期望从一段如此短且其中包含如此高比例的普通旧 ASCII 字符的文本中进行任何合理的编码猜测。

关于 big5:chardet 在检查 CJK 编码时广撒网。 big5中有很多未使用的slot，chardet也不排除。正如您所发现的，该字符串不是有效的 big5。它实际上是有效的(但没有意义)big5_hkscs(它使用了 big5 中的很多漏洞)。

有大量适合该字符串的单字节编码。

在这个阶段有必要寻求带外帮助。谷歌搜索“Kuzey etc”搜索到土耳其电视剧“Kuzey rüzgari”，所以我们现在有了这种语言。

这意味着如果它是由熟悉土耳其语的人输入的，它可能在 cp1254、iso_8859_3(或 _9)或 mac_turkish 中。所有这些都会在结尾附近为 [Kaz??m] 单词产生乱码。根据 imdb 网站，这是一个字符的名称，它与通过 cp1254 和 iso-8859-9 (KazÄ±m) 解码获得的相同的乱码。使用您建议的 iso-8859-2 解码得到 KazÄąm，这看起来也不太合理。

你能概括一下吗？我不这么认为:-)

我强烈建议您在这种情况下使用 latin1 对其进行解码(这样就不会损坏任何字节)并将记录标记为具有未知编码。您还应该使用最小长度截止值。

更新对于它的值(value)，the_two_bytes_in_the_character_name.decode('utf8') 生成 U+0131 拉丁文小写字母 DOTLESS I，用于土耳其语和阿塞拜疆语。进一步谷歌搜索表明 Kazım 是一个足够常见的土耳其名字。

关于python - chardet 在 Big5 上显然是错误的，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4731684/

42

4

0

文章推荐： python - django 根据模型属性自动填充一些数据

文章推荐： node.js - 无法将MongoDB与nodejs连接

文章推荐： python - Django，来自 USStateField 的完整状态名称

c - 在完美运行的程序中检测到缓冲区溢出(显然)
对包含as、bs、cs的字符串，我们可以进行如下操作。我们可以取任意两个相邻的不同字符并将它们替换为第三个。例如，“ab”被缩减为“c”，“ba”也是如此，依此类推。我编写这段代码是为了对 t 个字符
php - (显然)相同的字符串具有不同的哈希值
我得到了数据库检索字符串的不同哈希值和通过 html 表单提交的相同值。我做错了什么？数据库: SET NAMES utf8; SET foreign_key_checks = 0; SET ti
Python 在导入时执行函数(显然)
我正在继续那个加密程序，现在我正在为它开发 GUI。不过，我有一个奇怪的问题:在主菜单中，我有调用加密和解密子程序的按钮，但它们显然是在按下按钮之前执行的。定义.py #!/usr/bin/env
python - PyCharm 中的项目的解释器问题(显然)
我最近升级了 PyCharm(社区版)。如果重要的话，我正在 Mac OSX 机器上运行。升级后，我有一个项目，PyCharm 找不到任何 python 模块。它找不到 numpy，matplotli
mysql - Hibernate 说不存在的列是未知的......显然
我开始调整我的 spring boot 项目以使用 jpa/hibernate。在这个阶段，我只想检索 mysql 数据库中表的 id。以下是相关类: @SpringBootApplication
javascript - 为什么这个数组中的值(显然)立即改变
我找不到任何类似的问题，我不知道那里会发生什么(也许可能是愚蠢的事情)，但我还没有找到任何关于可能发生的事情的线索。我有这个数组: const superVillains = [ { value
java - 我的消费者能否在少数情况下(显然)成为生产者
我正在使用 ExecutorService 解决使用生产者-消费者问题的事务轮询案例和 BlockingQueue .我有一个交易 list ，我想对其进行验证并采取行动。我得到一个新的交易来不断地验
css - 为什么用于设置表格样式设置的重叠标签(显然)会做同样的事情？
注意这涉及 HTML 电子邮件编码(有限制) 例如，在我使用的 Mail Chimp 电子邮件模板中有这样的内容: 我猜他们是在覆盖基础，但什么时候应该使用 valign="top" 什么时候使用
c++ - 显然，静态变量将其值重置为 0
我有一个名为 Component 的基类，它有许多派生自它的类。我希望每个类都有一个与之关联的整数(哪个组件获得什么值无关紧要，只要它们从 0 开始并且是连续的)。我不知道如何直接执行此操作，因此在与
python - 受时间影响的错误(显然)的调试策略
我对 python 相当缺乏经验，所以我发现自己不知道如何解决这个错误。我继承了一个 python 应用程序，它主要只是将文件和文件夹从一个地方复制到另一个地方。所有文件和文件夹都在本地机器上，用户拥
java - list 中未声明的 Activity (显然)
我一生都无法弄清楚为什么它一直显示“无法找到显式 Activity 类 com.example.timer.beep。您是否在 Android list 中声明了该 Activity ？”。据我所知，
Python 队列的使用适用于线程，但(显然)不适用于多处理
许多有关多处理使用的教程似乎并没有完全解决为什么下面的技术适用于线程但不适用于多处理。为什么这不适用于多处理，以及我尝试要做的事情的实现是什么？谢谢! 线程实现(工作正常，对我来说很有意义): fr
ios - 使用正确的身份验证数据时 Firebase 权限被拒绝(显然)
我有一个非常奇怪的问题 - 我使用 firebase 验证自己的身份(通过电话并使用电子邮件/密码凭据链接帐户)，并且它工作得很好(获取数据等)。当应用程序(出于任何原因)对我崩溃时，我不断收到权限
ios - 显然，CLLocation 对象不能精确地归档/取消归档
在我的应用程序中(只显示相关代码)，我有一个类 Test 有一个属性 var location: CLLocation 我使用存档它 public func encode(with aCoder:
python - 显然 conda 找不到一些非常常见的包 : what am I doing wrong?
环境:我在装有 High Sierra 的 Mac 上使用 conda 4.6.7。我有一些遗留的 Python 代码，首先我想运行它。当然，由于这是研究代码，我没想到会找到“花哨的东西 (!!)”
PHP:创建文件但不能附加(显然)正确的服务器权限(LAMP)
我看过很多关于这个主题的问题和答案，但似乎没有一个对我的情况有帮助。我的 PHP 代码成功创建了一个新的日志文件，但随后无法访问该文件以附加更多信息、关闭它等。我正在将应用程序从本地 XAMPP 迁
mysql - 显然，我的 MySQL 表已损坏
我使用 000Webhost。我刚刚在我的 MySQL 数据库中创建了一个表。我遇到了这个错误: “mysql.proc 的列数错误。预期为 20，实际为 16。表可能已损坏”。我的其他表工作正
MySQL ORDER BY 以(显然)随机顺序返回事物？
以下查询: SELECT DISTINCT ClassName FROM SiteTree ORDER BY ClassName 没有明显的顺序返回! 无论我引用列/表名称，使用或不使用 DISTIN
mysql - 显然 fetch 返回 NULL
我正在学习 mysql 中的存储过程和游标，我偶然发现了它: delimiter // CREATE PROCEDURE some_func() BEGIN DECLARE link_rewr
python - 显然，Python字符串不是“天生相等”的
我正试着用“文本编码标准”来包装我的大脑。当将一堆字节解释为“文本”时，必须知道哪个“编码sheme”适用。我知道的可能的候选人： ascii：非常基本的编码方案，支持128个字符。 cp-1252：

首页

博学

6Ren·AI

商城

python - chardet 在 Big5 上显然是错误的