- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我正在尝试从网站获取一些数据。但是它返回给我incomplete read
。我要获取的数据是大量嵌套链接。我在网上做了一些研究,发现这可能是由于服务器错误(之前完成的分 block 传输编码达到预期大小)。我还在此 link 上找到了上述解决方法
但是,我不确定如何将其用于我的情况。以下是我正在处理的代码
br = mechanize.Browser()
br.addheaders = [('User-agent', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1;Trident/5.0)')]
urls = "http://shop.o2.co.uk/mobile_phones/Pay_Monthly/smartphone/all_brands"
page = urllib2.urlopen(urls).read()
soup = BeautifulSoup(page)
links = soup.findAll('img',url=True)
for tag in links:
name = tag['alt']
tag['url'] = urlparse.urljoin(urls, tag['url'])
r = br.open(tag['url'])
page_child = br.response().read()
soup_child = BeautifulSoup(page_child)
contracts = [tag_c['value']for tag_c in soup_child.findAll('input', {"name": "tariff-duration"})]
data_usage = [tag_c['value']for tag_c in soup_child.findAll('input', {"name": "allowance"})]
print contracts
print data_usage
请帮帮我。谢谢
最佳答案
link您在问题中包含的只是一个执行 urllib 的 read() 函数的包装器,它为您捕获任何不完整的读取异常。如果你不想实现整个补丁,你总是可以在读取链接的地方抛出一个 try/catch 循环。例如:
try:
page = urllib2.urlopen(urls).read()
except httplib.IncompleteRead, e:
page = e.partial
对于python3
try:
page = request.urlopen(urls).read()
except (http.client.IncompleteRead) as e:
page = e.partial
关于python - 如何处理 IncompleteRead : in python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14442222/
我想编写一个程序来从 Twitter 获取推文,然后进行情感分析。我编写了以下代码,即使在导入所有必要的库后也出现错误。我对数据科学比较陌生,所以请帮助我。 我无法理解此错误的原因: class Tw
我正在使用 Tweepy 在 Python3 中编写一个 Twitter 流监听器。流式传输一段时间后出现此错误: urllib3.exceptions.ProtocolError: ('Connec
当我尝试使用 requests 下载一些图像时遇到了这个奇怪的错误,代码如下, import requests import StringIO r = requests.get(image_url,
这是一段网络挖掘脚本。 def printer(q,missing): while 1: tmpurl=q.get() try: ima
我正在尝试从网站获取一些数据。但是它返回给我incomplete read。我要获取的数据是大量嵌套链接。我在网上做了一些研究,发现这可能是由于服务器错误(之前完成的分 block 传输编码达到预期大
这个问题似乎以前已经得到解答,但似乎只发生在 Linux 上。 我对文件的唯一导入是 import http.client ,完整错误如下: Error: An error occurred whi
我正在用 python 为 bigcommerce 构建一个应用程序,使用 bigcommerce sdk ( https://github.com/bigcommerce/bigcommerce-a
我已经阅读了许多有关“IncompleteRead”的问题和答案,其中大多数(如果不是全部)最终都会建议卸载并重新安装 pip,或升级 pip,或卸载并重新安装您尝试安装的软件包. 我什至无法升级 p
通过 pip3 安装模块时遇到问题,尝试了 2014 年 12 月投票最高的线程中的几个建议,但仍然得到以下信息: sudo pip3 install send2trash Traceback
我有几个守护进程使用 boto 从 Amazon S3 读取许多文件。每隔几天,我就会遇到一种情况,即 httplib.IncompleteRead 从 boto 的深处被抛出。如果我尝试重试该请求,
当我尝试使用 pip 或 pip3 安装任何东西时,我得到: $ sudo pip3 install python3-tk Traceback (most recent call last): F
我正在尝试使用 beautifulsoup4 和 python3 来抓取 really long web page。由于网站的大小,当我尝试在网站中搜索某些内容时,http.client 会抛出错误:
我试图了解如何处理下面代码中的 http.client.IncompleteRead 错误。我使用 this post 中的想法处理错误.基本上,我认为这可能只是服务器限制了我可以访问数据的次数,但奇
在运行此程序以使用 Python 2.7.8 检索 Twitter 数据时: #imports from tweepy import Stream from tweepy import OAuthHa
使用 Airflow worker 和 webserver/scheduler 作为在 EC2 上的 Kubernetes Engine 上运行的 Docker 镜像 我们有一个包含 Kubernet
我正在使用 Python (2.7.6) 和 Py2Neo (1.6.4) 更新 Neo4j 服务器上的数据。我的加载函数是: from py2neo import neo4j,node, rel,
我正在尝试使用请求模块下载 PDF 文件,代码如下: import requests url = "" r = requests.get(url, stream=True, timeout=(60,
我的 Python 脚本,包含以下行: from requests import post ... while(1): result = readSensors().result payl
使用 tweepy 运行一个 python 脚本,它在英语推文的随机样本中流式传输(使用 twitter 流式 API)一分钟,然后交替搜索(使用 twitter 搜索 API)一分钟,然后返回。我发
我已经在服务器 A 上设置了 neo4j,并且我在服务器 B 上运行了一个应用程序来连接到它。 如果我在服务器 A 上克隆应用程序并运行单元测试,它工作正常。但是在服务器 B 上运行它们,设置运行了
我是一名优秀的程序员,十分优秀!