python - 忽略 Python 中的编码错误(iterparse)？-6ren

python - 忽略 Python 中的编码错误(iterparse)？

转载作者：行者123 更新时间：2023-11-28 18:53:01

24

4

我已经为此奋斗了一个小时。我正在用 iterparse 解析 XML 字符串.但是，数据没有正确编码，我不是它的提供者，所以我无法修复编码。

这是我得到的错误:

lxml.etree.XMLSyntaxError: line 8167: Input is not proper UTF-8, indicate encoding !
Bytes: 0xEA 0x76 0x65 0x73

我怎样才能简单地忽略这个错误并继续解析？我不介意，如果一个字符没有正确保存，我只需要数据。

以下是我尝试过的，全部来自互联网:

data = data.encode('UTF-8','ignore')
data = unicode(data,errors='ignore')
data = unicode(data.strip(codecs.BOM_UTF8), 'utf-8', errors='ignore')

编辑:
我无法显示 url，因为它是私有(private) API 并且涉及我的 API key ，但这是我获取数据的方式:

ur = urlopen(url)
data = ur.read()

导致问题的字符是:å , 我猜 ä & ö等，也会破坏它。

这是我尝试解析它的部分:

def fast_iter(context, func):
    for event, elem in context:
        func(elem)
        elem.clear()
        while elem.getprevious() is not None:
            del elem.getparent()[0]
    del context

def process_element(elem):
    print elem.xpath('title/text( )')

context = etree.iterparse(StringIO(data), tag='item')
fast_iter(context, process_element)

编辑 2:
This当我尝试用 PHP 解析它时会发生什么。澄清一下，F***ing Åmål 是一个 drama movie =D

文件以<?xml version="1.0" encoding="UTF-8" ?>开头

这是我从 print repr(data[offset-10:offset+60]) 得到的:

ence des r\xeaves, La</title>\n\t\t<year>2006</year>\n\t\t<imdb>0354899</imdb>\n

最佳答案

你说:

The character that causes the problem is: å,

你怎么知道的？你用什么看你的文字？

因此您无法发布 URL 和您的 API key ；如何读取数据，将其写入文件(以二进制模式)，然后发布？

当您在网络浏览器中打开该文件时，它会检测到什么编码？

至少，做到这一点

data.decode('utf8') # where data is what you get from ur.read()

这将产生一个异常，告诉您非 UTF-8 内容的字节偏移量。

然后这样做:

print repr(data[offset-10:offset+60])

并向我们展示结果。

假设编码实际上是cp1252并解码 lxml 错误消息中的字节:

>>> guff = "\xEA\x76\x65\x73"
>>> from unicodedata import name
>>> [name(c) for c in guff.decode('1252')]
['LATIN SMALL LETTER E WITH CIRCUMFLEX', 'LATIN SMALL LETTER V', 'LATIN SMALL LE
TTER E', 'LATIN SMALL LETTER S']
>>>

那么您是否看到电子抑扬音后跟 ves , 或 a 环后接 ves , 或者 a-ring 后跟其他东西？

数据是否以类似 <?xml version="1.0" encoding="UTF-8"?> 的 XML 声明开头？如果不是，它以什么开头？

编码猜测/确认的线索:文本是用什么语言写的？哪个国家？

更新基于提供的进一步信息。

根据您在错误附近显示的片段，电影名称是“La science des rêves”(梦的科学)。

有趣的是，PHP 会因“F***ing Åmål”而作呕，而 Python 会因法国梦而窒息。您确定您进行了相同的查询吗？

您应该提前告诉我们这是 IMDB，您会更快得到答案。

解决方案 在您通过 data 之前到 lxml解析器，这样做:

data = data.replace('encoding="UTF-8"', 'encoding="iso-8859-1"')

这是基于他们在其网站上声明的编码，但这也可能是谎言。在这种情况下，请尝试 cp1252反而。它绝对不是 iso-8859-2。

关于python - 忽略 Python 中的编码错误(iterparse)？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9243005/

24

4

0

文章推荐： python - 如何将动态数据库名称传递给装饰器？

文章推荐： javascript - 如何在点击处理程序中一定时间后刷新页面

文章推荐： javascript - ng-repeat 按功能过滤

文章推荐： Python稀疏矩阵逆和拉普拉斯计算

gitconfig 忽略 includeIf
我正在尝试设置我的 git 配置，以便我可以使用工作环境和个人环境。这是我的 ~.gitconfig 文件的内容(碰巧 work 和 private 在 github 上): [url "git@
excel - 当单元格包含特定文本时不要复制(忽略)
我有以下情况。我在 Sheet1 上有一个项目列表，我想将项目复制到 Sheet2 并排除特定项目。假设我在 Sheet1 上有以下项目列表: 我想将“梨”单元格留在 Sheet2 上。它应该完全
gcc 忽略 LC_ALL
我试图让 gcc 以不同的语言提供错误消息。但它仍然给我英文的错误信息。我的语言环境输出 varun@varun-desktop:$ 语言环境 LANG=en_IN LC_CTYPE="es_EC.
GCC 忽略 cdecl？
我在 Linux x86 上使用 gcc。我的程序将指向 C 函数的指针导出到 LLVM JIT 函数。调用约定是 cdecl。它在 Windows 上的 MingW 上运行良好。但是奇怪的事情发生
php - require_once 忽略
windows 上 php 的奇怪问题...我的应用程序加载了一个“核心”文件，该文件加载了一个设置文件、注册自动加载、进行初始化等。在核心文件的顶部我有 include_once("config.p
delphi - 在构建配置中设置调试器语言异常(忽略)
在工具|选项|调试器选项 |语言异常可以忽略特定的异常类型。是否可以为每个项目定义这个？例如在调试构建配置中(Delphi 2009 和/或 2010)？ /编辑:Reported in QC 最佳答
Safari 忽略 tabindex
我在一个文本框旁边有 2 个按钮，在这 2 个按钮后面还有另一个文本框。第一个文本框的 tabindex 为 1000，第一个按钮为 1001，第二个按钮为 1002。第二个文本框的 tabindex
忽略 Python 类型提示
我是 python 新手，正在尝试类型提示，但它们似乎只在某些情况下起作用。它们似乎在属性返回类型上按预期工作，但是当我尝试将整数分配给字符串值(即 self._my_string = 4)时，我没有
VBA:忽略 For-Each 循环中的条件
问题陈述我有一些国家和这些国家的州的依赖组合框。我使用 VBA 在第一个组合框中填充唯一值，然后在第二个组合框中动态填充唯一值。该代码似乎忽略了初始传递中的条件。例如，该代码适用于第一个国家/地区
Javascript 忽略 if 语句
我对 Javascript 有点陌生。我试图做到这一点，以便单击一个页面上的图像会将您带到一个新页面，并在该新页面上显示特定的 div，因此我使用 sessionStorage 来记住并使用 bool
javascript - 忽略@RenderBody()
我不确定我是否正确地处理了这个问题。我有一个 ASP.NET MVC Web 应用程序。有 4 个主要“页面”通过单击菜单选项，可以选择一个页面，并将该页面选项存储在本地存储中。现在，如果我刷新页
javascript - 忽略/不转换时区？
我的页面工作正常，并按预期显示日期和时间，直到我不得不添加 new Date() 以避免 momentjs deprecation warning 。现在我的约会比应有的时间晚了 5 个小时。我该如
忽略 $Id 行的合并工具
我需要合并一个 fork 项目。不幸的是，CVS $Id 行不同，因此我尝试的合并工具报告所有文件都不同(其中 95% 只有这一行不同) 是否有一个合并工具可以配置为忽略基于模式的行比较结果？ [编辑
忽略 Python 类型提示
我是 python 新手，正在尝试类型提示，但它们似乎只在某些情况下起作用。它们似乎在属性返回类型上按预期工作，但是当我尝试将整数分配给字符串值(即 self._my_string = 4)时，我没有
HttpsURLConnection 忽略 setSSLSocketFactory
我正在尝试根据 How do a send an HTTPS request through a proxy in Java? 使用代理访问 https 网页但是我遇到了一个奇怪的问题:HttpsU
CMake 忽略 library_output_name
我有一个简单的 CMakeLists.txt 文件: cmake_minimum_required(VERSION 2.8.9) project (sample) add_library(Shared
忽略 Const 限定符
这个问题在这里已经有了答案: typedef pointer const weirdness (6 个答案) 关闭 8 年前。我有一个结构体 type_s。然后我将指向 struct type_s
CryptEncrypt 忽略 HASH？
我正在尝试制作一个使用 AES 256 加密的应用程序。不幸的是我无法让它工作。也许我没有完全理解密码逻辑。所以它正在工作，但据我了解，哈希包含密码。但如果我更改密码，输出是相同的。因此，Crypt
java - 提取引号之间的子字符串，忽略\"
我的文件包含一些行，例如 "This is a string." = "This is a string's content." " Another \" example \"" = " New ex
Mysql - 忽略 where 子句中的状态
我尝试使用此查询来获取所选健身房的所有用户。我的问题是查询忽略了这部分:ual.user_id = weekUsers.user_id 查询似乎获取了与我选择的日期匹配的所有用户 ID，而不检查该用

首页

博学

6Ren·AI

商城

python - 忽略 Python 中的编码错误(iterparse)？