- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我在使用 lxml.html.parse()
时遇到了一些问题:
这是我的代码(缩写):
import lxml.html
class Scraper:
def fetch(self, url):
tree = None
try:
parser = lxml.html.HTMLParser(encoding='utf8')
tree = lxml.html.parse(url, parser)
except IOError as e:
print('ERROR LOADING PAGE: ' + str(e))
return tree
它大部分工作正常,但有时我会遇到很多这样的错误:
ERROR LOADING PAGE: Error reading file 'b'http://twitter.com/wordpressdotcom'': b'failed to load external entity "http://twitter.com/wordpressdotcom"'
ERROR LOADING PAGE: Error reading file 'b'http://www.amazon.com/gp/offer-listing/0375714634/ref=la_B001IGSNMM_1_9_cp_1_pap_olp/185-7720102-5178158?s=books&ie=UTF8&qid=1391249475&sr=1-9&condition=collectible'': b'failed to load HTTP resource'
ERROR LOADING PAGE: Error reading file 'b'http://plugins.trac.wordpress.org/changeset/559098'': b'failed to load external entity "http://plugins.trac.wordpress.org/changeset/559098"'
我在这里查看了其他问题和答案,但他们只能建议使用 urllib - 但当我尝试时这并没有真正帮助。
我想要的是禁止加载“外部实体”,不管它到底是什么意思。我只需要给定 URL 的 html。
最佳答案
当我用 Wireshark 嗅探时,我看到了这个:
http://twitter.com/wordpressdotcom
:
GET /wordpressdotcom HTTP/1.0
Host: twitter.com
Accept-Encoding: gzip
HTTP/1.0 301 Moved Permanently
content-length: 0
date: Sat, 01 Feb 2014 12:08:01 UTC
location: https://twitter.com/wordpressdotcom
server: tfe
set-cookie: guest_id=v1%3A139125648190241848; Domain=.twitter.com; Path=/; Expires=Mon, 01-Feb-2016 12:08:01 UTC
http://www.amazon.com/gp/offer-listing/0375714634/ref=la_B001IGSNMM_1_9_cp_1_pap_olp/185-7720102-5178158?s=books&ie=UTF8&qid=1391249475&sr=1-9&condition=collectible
GET /gp/offer-listing/0375714634/ref=la_B001IGSNMM_1_9_cp_1_pap_olp/185-7720102-5178158?s=books&ie=UTF8&qid=1391249475&sr=1-9&condition=collectible HTTP/1.0
Host: www.amazon.com
Accept-Encoding: gzip
HTTP/1.1 503 Service Unavailable
Date: Sat, 01 Feb 2014 12:10:49 GMT
Server: Server
Last-Modified: Fri, 30 Nov 2012 01:26:22 GMT
ETag: "3dd-4cfac498acb80-gzip"
Accept-Ranges: bytes
Vary: Accept-Encoding,User-Agent
Content-Encoding: gzip
Content-Length: 599
Connection: close
Content-Type: text/html
...........SMo.0...Wp..]b....M...Pl.....`l.V+K..8M..(;.v.a..S..(.=.m....l.k.u......~...V....b.....j:.U...S.u."..k.|vy....J.P4..fY...x0..7....[Kp....S.Y.O...>B.GKk.c].....0/..wR9.ag.q...F...6hg....M....d........N.vk..Yi}8.r.......V..t
.... !...B.0..f.._9.G...\....OY0...-..{........xZ^.......n~.(8.:.k%1
Z2M+....[.5.Z.2.R..DL.KV.y2.Y...4N...z....Z.N....V........].DV.z^..}..j>W.;..WB.bS.......ba.3.g..G8......".}b...th1....a."`x........>[.@......8-........z.q.{.CJE.@>.d..?...UK...dQ'.J
....KW..v...iK.q.=-AI.?....za7.=/u/.......T.Sf}...\t.iJ. ..8.....U...dg...9..t#.g......Lz.. .?...i.........L]....
对于 http://plugins.trac.wordpress.org/changeset/559098
GET /changeset/559098 HTTP/1.0
Host: plugins.trac.wordpress.org
Accept-Encoding: gzip
HTTP/1.1 302 Found
Date: Sat, 01 Feb 2014 12:13:06 GMT
Server: Apache
Location: https://plugins.trac.wordpress.org/changeset/559098
Vary: Accept-Encoding
Content-Encoding: gzip
Content-Length: 242
Connection: close
Content-Type: text/html; charset=iso-8859-1
..........uO.N.0...+L..eh..L$X;1i@......fR.DI:...n.r.l?.....|.4.u./.......n..-..j..eS^..(...\fd..K2.t..1.,...l.4j.."#<.....3.N^..e.dc..m....F....5.....171......;.AD.Z.c.v.C..w..5v.8.r....\..L.. t..OEi=3..Sm.<.?.....e....*................|7...
lxml
显然不处理重定向,对于 Amazon 的情况,您可能需要使用真正的“User-Agent” header 。
您应该使用另一个库来下载页面的内容,例如requests
或 urllib(2)
,然后将此 HTML 提供给 lxml.html
关于python - 如何防止 LXML 错误 'failed to load external entity',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21496857/
这段代码是否正确? extern "C" extern int x; // 1 extern extern "C" int y; // 2 extern "C" extern
根据 C++ Primer ,我们可以为定义为 extern 的变量提供初始化程序,但这样做会覆盖 extern。具有初始值设定项的 extern 是一个定义: extern double pi =
使用 Cuda 5.0、VS2010 这个项目在 VS2012 中编译和链接很好,但是 VS2012 不支持 Nsight 调试所以我也在 VS2010 中开发。所以我有一个 VS2010 项目文件,
这个问题已经有答案了: How do I use extern to share variables between source files? (19 个回答) Different compilat
我正在编写供 C 程序使用的 C++ 共享库。但是,我对 extern 和 extern "C" 有疑问。 考虑以下代码 我的头文件是这样的: #ifdef __cplusplus
我对整个 header 使用 extern "C" 说明符,还是为每个函数指定 extern 有区别吗? 据我所知,没有,因为只有函数和变量可以外部链接,所以当我在每个函数原型(prototype)和
这个问题在这里已经有了答案: What is the effect of extern "C" in C++? (17 个答案) 关闭 7 年前。 我见过 C/C++ 代码使用在函数签名中声明的 e
所以我使用 svn:externals 来检查一个外部仓库。外部仓库有自己的 svn-externals 设置。 现在,当更新我的项目的工作副本时,来自外部存储库的文件正在更新,但它的外部文件没有。该
是否可以忽略 svn:externals 属性中引用的标记的外部依赖性?这听起来像是一个很奇怪的问题,但让我解释一下...... 我收集了大量独立的“可插入”代码模块,每个模块都可以作为独立项目进行独
我见过 2 种创建全局变量的方法,有什么区别,什么时候使用它们? //.h extern NSString * const MyConstant; //.m NSString * const MyCo
我在 test 模块下通过 stripe api 在 stripe 中创建了一个帐户。并与该账户绑定(bind)一个银行账户。转到 Stripe dashboard -> connect -> acc
我在下面有一个代码。它是由 qemu 程序(一个 C 程序)使用 dlopen 加载的动态共享库的一部分。 extern "C" { extern uint64_t host_virt_offset;
C++ Primer 第 5 版第 60 页讨论了如何跨文件共享 const 变量 //file_1.cc extern const int bufSize = fcn(); //file_1.h e
这个 Unresolved external 问题有什么问题?我正在尝试将其实现到我的 MFC 应用程序的 InitInstance 中。但是我从调试器中收到此行错误。 LNK2019: unreso
在 C++ 中,extern(后面不跟语言链接字符串文字)似乎对命名空间范围 (Difference between declaration of function with extern and w
假设我有 3 个文件:file1.c、file2.c 和 globals.h。 file1.c 和 file2.c 都包含 globals.h。 file1.c 包含 file2.c 需要使用的结构。
我正在为具有 16 位安装程序的旧 CD-ROM 游戏编写新的安装程序,安装程序需要在硬盘上并且能够从原始光盘复制文件。如果所有游戏文件都打包在安装程序中,我已经设置了一个可以安装游戏的脚本,这适合个
在编译我的代码时,我收到此错误。 1>MSVCRTD.lib(crtexe.obj):错误 LNK2019:函数 ___tmainCRTStartup 中引用了未解析的外部符号 _main1>C:\U
我试图将 cimg 库包装在 c++/clr 中,当我尝试构建它时,我遇到了一堆链接错误。 Error 20 error LNK2028: unresolved token (0A0002AC)
我一直遇到这两个错误,但我似乎找不到有效的解决方案。 LNK1120: 1 unresolved externals Error 1 error LNK2019: unresolved externa
我是一名优秀的程序员,十分优秀!