- xml - AJAX/Jquery XML 解析
- 具有多重继承的 XML 模式
- .net - 枚举序列化 Json 与 XML
- XML 简单类型、简单内容、复杂类型、复杂内容
当我使用 python lxml 库(最新版本) 指定我自己的编码时,我收到 LookupError。
发生查找错误。参数:(“未知编码:'b'utf-8-sig''”,)
parser = etree.XMLParser(encoding="utf-8-sig")
xml = etree.parse(source=response_bytes_io, parser=parser)
由于某些原因,lxml 不知道“utf-8-sig”,而它是 python 3 的标准编码。参见 https://docs.python.org/3/library/codecs.html#standard-encodings
知道如何解决这个问题吗?
最佳答案
长话短说,使用utf-8
而不是 utf-8-sig
即使存在 UTF-8 编码的 BOM,它也能正常工作:
>>> data = b'\xef\xbb\xbf<test/>'
>>> lxml.etree.parse(io.BytesIO(data), parser=lxml.etree.XMLParser(encoding='utf-8'))
<lxml.etree._ElementTree object at 0x7f3403e47730>
注意必须是utf-8
,而不是 utf8
尽管后者通常被 Python 接受为别名:
>>> lxml.etree.parse(io.BytesIO(b'\xef\xbb\xbf<test/>'), parser=lxml.etree.XMLParser(encoding='utf8', remove_blank_text=True))
Traceback (most recent call last):
...
lxml.etree.XMLSyntaxError: Start tag expected, '<' not found, line 1, column 1
lxml 是 libxml2 库的包装器。出于这个原因,encoding
参数传递给 XMLParser
不是 Python 编码的名称,而是 iconv 编码名称。我不得不潜入the lxml source弄清楚这一点,并可以通过例如检查来确认它OSF00010004
,我的系统上的 iconv 支持它,但 Python 不支持它:
>>> lxml.etree.parse(io.BytesIO(b'<test/>'), parser=lxml.etree.XMLParser(encoding='OSF00010004'))
<lxml.etree._ElementTree object at 0x7f8baa6adc30>
>>> b'<test/>'.decode('OSF00010004')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
LookupError: unknown encoding: OSF00010004
我们可以使用 iconv -l
列出支持的编码,但没有等效于 Python 的 BOM 剥离 utf-8-sig
.显然路过utf-8
足够好。
值得一提的是,libxml2 只适用于 UTF-8 编码的字符串,我们可以从 lxml FAQ 中了解到这一点。 :
The text encoding that libxml2 uses internally is UTF-8, so parsing from a Unicode file means that Python first reads a chunk of data from the file, then decodes it into a new buffer, and then copies it into a new unicode string object, just to let libxml2 make yet another copy while encoding it down into UTF-8 in order to parse it.
这对性能有影响,如 FAQ 条目的详细信息。
我们可以先解码再解析:
response_string = response_bytes_io.read().decode('utf-8-sig')
xml = etree.fromstring(response_string)
如上所述,这效率较低,因为 Python strings are not internally stored as UTF-8因此在 libxml2 可以使用它之前必须将其重新编码为 UTF-8。
您还需要注意,如果 XML 包含类似 <?xml version="1.0" encoding="UTF-8"?>
的编码声明,此方法将失败。 :
ValueError: Unicode strings with encoding declaration are not supported.
Please use bytes input or XML fragments without declaration.
如果您要处理来自第三方来源的 XML,这可能会破坏交易。
我们也可以自己去掉 UTF-8 编码的 BOM,因为它总是三个字节 \xef\xbb\xbf
.
遗憾的是,在类似文件的对象上执行此操作比在字符串上执行此操作要复杂一些,因为您无法预读。将文件包装在 io.BufferedReader
中给你 peek()
函数,但您无法控制它返回多少字节。
所以安全的方法是首先将所有内容读入缓冲区:
response_bytes = response_bytes_io.read()
if response_bytes.startswith(b'\xef\xbb\xbf'):
response_bytes = response_bytes[3:]
parser = etree.XMLParser(encoding='utf-8')
xml = etree.parse(source=io.BytesIO(response_bytes), parser=parser)
这比直接在流上操作效率低,因为解析会延迟到整个响应已被读取,但它仍然比额外的解码和重新编码过程更有效。
关于python - 发生 lxml LookupError。参数 : ("unknown encoding: ' b'utf-8-sig ''", ),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50970691/
我有两种结构,Header 和Session,它们都符合协议(protocol)TimelineItem。 我有一个 Array 由 TimelineItem 组成,如下所示: [Header1, S
这个问题在这里已经有了答案: Multiple assignment and evaluation order in Python (11 个答案) 关闭 6 年前。 我刚接触python所以想问你
我试图找到一种方法来在 R 中获取 A、A、A、A、B、B、B、B、B 的所有可能的唯一排列的列表。 组合最初被认为是获得解决方案的方法,因此组合的答案。 最佳答案 我认为这就是你所追求的。 @bil
我怎样才能将两个给定的向量混合成一个新的向量,它以交替的顺序保存它们的值。 (f [a a] [b b]) ; > [a b a b] 这是我想到的: (flatten (map vector [:a
这是我的第一个问题,我开始学习Python。之间有区别吗: a, b = b, a + b 和 a = b b = a + b 当您在下面的示例中编写它时,它会显示不同的结果。 def fib(n):
这个问题在这里已经有了答案: Why is there an injected class name? (1 个回答) 12 个月前关闭。 我不知道如何解释: namespace A { struct
我尝试了一些代码来交换 Java 中的两个整数,而不使用第三个变量,使用 XOR。 这是我尝试过的两个交换函数: package lang.numeric; public class SwapVars
假设类 B 扩展类 A,并且我想为 B 声明一个变量。什么更有效?为什么? B b或 A b . 最佳答案 您混淆了两个不同的概念。 class B extends A { } 意味着B 是 A .
我不确定这个问题的标题是什么,这也可能是一个重复的问题。所以请相应地指导。 我是 python 编程的新手。我有这个简单的代码来生成斐波那契数列。 1: def fibo(n): 2: a =
我在谷歌上搜索了有关 dynamic_cast 的内容,我发现显式地将基类对象转换为派生类指针可能是不安全的。但是当我运行一些示例代码来检查它时,我没有收到任何错误。请在下面找到我的代码: class
这个问题在这里已经有了答案: What is this weird colon-member (" : ") syntax in the constructor? (14 个答案) 关闭 8 年前。
在不重现产生非整数值的表达式的情况下实现以下目标的惯用方法是什么(在我的真实情况下,该值是在我不想重现的冗长查询之后计算为百分比的): SELECT * FROM SomeTable WHERE 1/
在析构中,这两个代码的结果确实不同。我不确定为什么。 提示说 const [b,a] = [a,b] 将导致 a,b 的值为 undefined (从左到右的简单分配规则)。我不明白为什么会这样。 l
C++ Templates - The Complete Guide, 2nd Edition介绍max模板: template T max (T a, T b) { // if b < a th
我最近开始学习代码(Java),并根据第 15.17.3 节在 Oracle 网站上查找了模运算符。以下链接: http://docs.oracle.com/javase/specs/jls/se8/
无法理解以下行为。 d1 := &data{1}; 的区别d1 和 d2 := 数据{1}; &d1。两者都是指针,对吧?但他们的行为不同。这里发生了什么 package main import "f
这个问题在这里已经有了答案: How to make loop infinite with "x = y && x != y"? (4 个回答) How can i define variables
在我的程序中,当我调试我的代码时,它似乎在我生成的代码中的某处 X1=['[a,a,a]','[b,b,b]'] 还有我生成的其他地方 X2=[[a,a,a],[b,b,b]] 当我想添加这两个列表然
我试图使用递归将两个整数相乘,并意外编写了这段代码: //the original version int multiply(int a, int b) { if ( !b ) retu
我有一个列表中数字之间所有可能的操作组合: list = ['2','7','8'] 7+8*2 8+7*2 2*8+7 2+8*7 2-8*7 8-2/7 etc 我想知道是否可以说像 ('7*2+
我是一名优秀的程序员,十分优秀!