python - 使用 lxml，是什么导致 "lxml.etree.XMLSyntaxError: Document is empty"错误？-6ren

python - 使用 lxml，是什么导致 "lxml.etree.XMLSyntaxError: Document is empty"错误？

转载作者：数据小太阳更新时间：2023-10-29 01:57:43

30

4

我正在使用 mechanize/cookiejar/lxml 来读取页面，它适用于某些页面但不适用于其他页面。我在其中遇到的错误是标题中的错误。我不能在这里发布页面，因为它们不是 SFW，但是有没有办法修复它？基本上，这就是我所做的:

import mechanize, cookielib
from lxml import etree    

br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)

br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(False)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.2.13) Gecko/20101206 Ubuntu/10.10 maverick Firefox/3.6.13')]

response = br.open('...')
tree = etree.parse(response) #error

之后，我获取根目录并在文档中搜索我想要的值。显然 iterparse 不会使它崩溃，但目前我假设它不只是因为我没有用它处理任何东西。另外，我还没有弄清楚如何用它搜索内容。

我试过禁用 gzip 并启用发送 referer，但都没有解决问题。我还尝试将源代码保存到磁盘并为此创建树，但我遇到了同样的错误。

编辑
我得到的响应似乎很好，按照建议使用 print repr(response) 我得到了 <response_seek_wrapper at 0xa4a160c whose wrapped object = <stupid_gzip_wrapper at 0xa49acec whose fp = <socket._fileobject object at 0xa49c32c>>> .我还可以使用 read() 方法保存响应并检查保存的 .xml 是否适用于浏览器和所有内容。

此外，在其中一个页面中，有一个 ’这给了我以下错误:“lxml.etree.XMLSyntaxError:实体‘rsquo’未定义，第 17 行，第 7054 列”。到目前为止，我已经用正则表达式替换了它，但是有没有可以处理这个问题的解析器？即使使用下面建议的 lxml.html.parse，我也遇到了这个错误。

关于突出显示的文件，我的意思是当我用 gEdit 打开它时，它会执行以下操作:http://img34.imageshack.us/img34/9574/gedit.jpg

最佳答案

对 html 使用 lxml.html.parse 它甚至可以处理非常破损的 html，你仍然会收到错误消息吗？

关于python - 使用 lxml，是什么导致 "lxml.etree.XMLSyntaxError: Document is empty"错误？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4642430/

30

4

0

文章推荐： java - 使用 Java 打开和编辑 .jar 中的文件？

文章推荐： go - 如何从标准输入中按字节读取？

文章推荐： docker - 在docker中获取Go的所有依赖包

文章推荐： c# - Ninject 和 XML 配置绑定(bind)

java - 如何找到 Cassandra 导致 Spark 作业中止的根本原因(导致 ClassCastException - ShuffleMapTask 到 Task)？
我正在尝试使用 Spark 从 Cassandra 读取数据。 DataFrame rdf = sqlContext.read().option("keyspace", "readypulse
ctime() 导致 SIGABRT(？!)
这是代码: void i_log_ (int error, const char * file, int line, const char * fmt, ...) { /* Get erro
导致 Gtk 在断言时中止
我必须调试一个严重依赖 Gtk 的程序。问题是由于某些原因，在使用 GtkWindow 对象时开始出现许多运行时警告。问题是，即使 Gtk 提示严重错误，它也不会因这些错误而中止。我没有代码库的更改历
glsl - glGetProgramBinary 导致 GL_INVALID_OPERATION
我正在尝试从已有效编译和链接的程序中检索二进制文件。我已经通过 GL_PROGRAM_BINARY_LENGTH 收到了它的长度。该文档说有两个实例可能会发生 GL_INVALID_OPERATION
wcf - 导致 ServiceActivationException 的原因是什么？
我有一个托管在 Azure 环境中的服务。我正在使用控制台应用程序使用该服务。这样做时，我得到了异常: "The requested service, 'http://xxxx-d.yyyy.be/S
multithreading - sem_init() 导致 SEGV
我有以下代码，它被 SEGV 信号杀死。使用调试器表明它被 main() 中的第一个 sem_init() 杀死。如果我注释掉第一个 sem_init() ，第二个会导致同样的问题。我试图弄清楚是什么
xcode - NSJSONSerialization 导致 EXC_BAD_ACCESS
目前我正在编写一个应用程序(目标 iOS 6，启用 ARC)，它使用 JSON 进行数据传输，使用核心数据进行持久存储。 JSON 数据由 PHP 脚本通过 json_encode 从 MySQL 数
android - PopAsync 导致 ArgumentOutOfRangeException
我对 Xamarin.Forms 还是很陌生。我在出现的主页上有一个非常简单的功能 async public Task BaseAppearing() { if (UserID
android - notifyDataSetChanged() 导致 IndexOutOfBoundsException
这是我的代码的简化版本。 public class MainActivity extends ActionBarActivity { private ArrayList entry = new Arr
java - 导致 NoSuchMethodError 的显式转换？
我想弄明白为什么我的两个 Java 库很难很好地协同工作。这是场景: 库 1 有一个类 A，其构造函数如下: public A(Object obj) { /* boilerplate */ } 在以
iphone - didReceiveAuthenticationChallenge 导致 EXC_BAD_ACCESS
如果网站不需要身份验证，我的代码可以正常工作，如果需要，则在打印“已创建凭据”后会立即出现 EXC_BAD_ACCESS 错误。我不会发布任何内容，并且此代码是直接从文档中复制的 - 知道出了什么问题
iphone - NSArray 导致 EXC_BAD_ACCESS
我在使用 NSArray 填充 UITableView 时遇到问题。我确信我正在做一些愚蠢的事情，但我无法弄清楚。当我尝试进行简单的计数时，我得到了 EXC_BAD_ACCESS，我知道这是因为我试图
iphone - resignFirstResponder 导致 EXC_BAD_ACCESS
我在 UITableViewCell 上有一个 UITextField，在另一个单元格上有一个按钮。我单击 UITextField(出现键盘)。 UITextField 调用了以下方法: - (BO
iphone - MKReverseGeocoder 导致 EXC_BAD_ACCESS？
我有一个应用程序出现间歇性崩溃。崩溃日志显示了一个堆栈跟踪，这对我来说很难破译，因此希望其他人看到了这一点并能为我指出正确的方向。基本上，应用程序在启动时执行反向地理编码请求，以在标签中显示用户的位
iphone - UIImageWriteToSavedPhotosAlbum 导致 EXC_BAD_ACCESS
我开发了一个 CGImage，当程序使用以下命令将其显示在屏幕上时它工作正常: [output_view.layer performSelectorOnMainThread:@selector(set
android - EncryptedSharedPreferences 导致 UnrecoverableKeyException
我正在使用新的 EncryptedSharedPreferences以谷歌推荐的方式上课: private fun securePrefs(context: Context): SharedPrefe
javascript - ClientId 导致 NullReferenceException
我有一个中继器，里面有一些控件，其中一个是文本框。我正在尝试使用 jquery 获取文本框，我的代码如下所示: $("#").click(function (event) {}); 但我总是得到 nu
android - 导致 TTS 初始化失败的原因是什么？
在以下场景中观察到 TTS 初始化错误，太随机了。已安装 TTS 引擎，存在语音集，并且可以从辅助功能选项中播放示例 tts。 TTS 初始化在之前初始化和播放的同一设备上随机失败。在不同的设备(
java - 64位VM不启动指针压缩，导致-8内存对齐
maven pom.xml org.openjdk.jol jol-core 0.10 Java 类: public class MyObjectData { pr
math - 导致 MD5 冲突的最短字符串对是什么？
在不担心冲突的情况下，可以使用 MD5 作为哈希值，字符串长度最多为多少？这可能是通过为特定字符集中的每个可能的字符串生成 MD5 哈希来计算的，长度不断增加，直到哈希第二次出现(冲突)。没有冲突的

首页

博学

6Ren·AI

商城

python - 使用 lxml，是什么导致 "lxml.etree.XMLSyntaxError: Document is empty"错误？