gpt4 book ai didi

python - 忽略 Python 中的编码错误(iterparse)?

转载 作者:行者123 更新时间:2023-11-28 18:53:01 24 4
gpt4 key购买 nike

我已经为此奋斗了一个小时。我正在用 iterparse 解析 XML 字符串.但是,数据没有正确编码,我不是它的提供者,所以我无法修复编码。

这是我得到的错误:

lxml.etree.XMLSyntaxError: line 8167: Input is not proper UTF-8, indicate encoding !
Bytes: 0xEA 0x76 0x65 0x73

我怎样才能简单地忽略这个错误并继续解析?我不介意,如果一个字符没有正确保存,我只需要数据。

以下是我尝试过的,全部来自互联网:

data = data.encode('UTF-8','ignore')
data = unicode(data,errors='ignore')
data = unicode(data.strip(codecs.BOM_UTF8), 'utf-8', errors='ignore')

编辑:
我无法显示 url,因为它是私有(private) API 并且涉及我的 API key ,但这是我获取数据的方式:

ur = urlopen(url)
data = ur.read()

导致问题的字符是:å , 我猜 ä & ö等,也会破坏它。

这是我尝试解析它的部分:

def fast_iter(context, func):
for event, elem in context:
func(elem)
elem.clear()
while elem.getprevious() is not None:
del elem.getparent()[0]
del context

def process_element(elem):
print elem.xpath('title/text( )')

context = etree.iterparse(StringIO(data), tag='item')
fast_iter(context, process_element)

编辑 2:
This当我尝试用 PHP 解析它时会发生什么。澄清一下,F***ing Åmål 是一个 drama movie =D

文件以<?xml version="1.0" encoding="UTF-8" ?>开头

这是我从 print repr(data[offset-10:offset+60]) 得到的:

ence des r\xeaves, La</title>\n\t\t<year>2006</year>\n\t\t<imdb>0354899</imdb>\n

最佳答案

你说:

The character that causes the problem is: å,

你怎么知道的?你用什么看你的文字?

因此您无法发布 URL 和您的 API key ;如何读取数据,将其写入文件(以二进制模式),然后发布?

当您在网络浏览器中打开该文件时,它会检测到什么编码?

至少,做到这一点

data.decode('utf8') # where data is what you get from ur.read()

这将产生一个异常,告诉您非 UTF-8 内容的字节偏移量。

然后这样做:

print repr(data[offset-10:offset+60])

并向我们展示结果。

假设编码实际上是cp1252并解码 lxml 错误消息中的字节:

>>> guff = "\xEA\x76\x65\x73"
>>> from unicodedata import name
>>> [name(c) for c in guff.decode('1252')]
['LATIN SMALL LETTER E WITH CIRCUMFLEX', 'LATIN SMALL LETTER V', 'LATIN SMALL LE
TTER E', 'LATIN SMALL LETTER S']
>>>

那么您是否看到电子抑扬音后跟 ves , 或 a 环后接 ves , 或者 a-ring 后跟其他东西?

数据是否以类似 <?xml version="1.0" encoding="UTF-8"?> 的 XML 声明开头?如果不是,它以什么开头?

编码猜测/确认的线索:文本是用什么语言写的?哪个国家?

更新基于提供的进一步信息。

根据您在错误附近显示的片段,电影名称是“La science des rêves”(梦的科学)。

有趣的是,PHP 会因“F***ing Åmål”而作呕,而 Python 会因法国梦而窒息。您确定您进行了相同的查询吗?

您应该提前告诉我们这是 IMDB,您会更快得到答案。

解决方案 在您通过 data 之前到 lxml解析器,这样做:

data = data.replace('encoding="UTF-8"', 'encoding="iso-8859-1"')

这是基于他们在其网站上声明的编码,但这也可能是谎言。在这种情况下,请尝试 cp1252反而。它绝对不是 iso-8859-2

关于python - 忽略 Python 中的编码错误(iterparse)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9243005/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com