- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我注意到使用 urllib 下载网页:
http://www.amazon.co.uk/Darkness-II-Limited-PC-DVD/dp/B005ULLEX6
我使用 urlopen( url ).read() 返回的内容与 firebug 看到的不同。
示例:
如果你将firebug指向页面的图像区域,它会告诉你存在一个div id="prodImageCell",但是当查看python打开的内容时,没有这样的东西,因此beautifulsoup没有没有找到任何东西。
这是因为图像是使用 JavaScript 生成的吗?
问题:
如果是这样,有没有一种方法可以使用 urllib 下载与 firebug 看到的几乎完全相同的东西(而不是使用像 Selenium 这样的东西)。
我正在尝试以编程方式获取其中一张图像的源网址,这里的示例是带有 prodImageCell 的 div 具有 src=http://ecx.images-amazon.com/images/I/51uPDvJGS3L。AA300 .jpg 这确实是图像的 url。
答案:
无法正确回答,因为我没有声誉:(
感谢 @huelbois 为我指明了正确的方向,找到了解决方案,需要使用用户代理 header 。
之前
>>> import urllib2
>>> import re
>>> site = urllib2.urlopen('http://www.amazon.co.uk/\
Darkness-II-Limited-PC-DVD/dp/B005ULLEX6').read()
>>> re.search( 'prodImageCell', site )
>>>
之后
>>> user_agent = "Mozilla/5.0 (Windows NT 5.1; rv:7.0.1) Gecko/20100101\
Firefox/7.0.1"
>>> headers = {'User-Agent':user_agent}
>>> req = urllib2.Request(url=url,headers=headers)
>>> site = urllib2.urlopen(req).read()
>>> re.search( 'prodImageCell', site )
<_sre.SRE_Match object at 0x01487DB0>
万岁!
最佳答案
刚刚使用 wget 对其进行了测试(将像 urrlib 一样工作)。您必须包含 User-Agent header 才能获取请求的部分:
wget -O- --header='用户代理:Mozilla/5.0(Windows NT 6.1;rv:9.0.1)Gecko/20100101 Firefox/9.0.1' http://www.amazon.co.uk/Darkness-II-Limited-PC-DVD/dp/B005ULLEX6
返回包含请求部分的 html 页面。
哎呀:刚刚看到你按照我之前的建议成功了。太棒了!
关于python - 仅使用 python、html 下载 amazon.co.uk 网页,就像 firebug 看到的那样,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9413131/
我有大量具有不同列号的数据。我只想输出 11 列的数据,并按第 4、6 和 9 列对它们进行排序。如果我使用 awk NF==11 17144_bondlength.dat |sort -uk 4 -
你好,我有我使用的代码 ORDER BY domain_name ASC 并得到像这样的结果 name-somethinga.co.uk name-somethingb.co.uk name.co.u
为什么在此实现中未应用 100% 宽度(其中类 uk-width-1-1 应用于网格容器子项的嵌套 div): Row 01
我正在使用 data-uk-timepicker在我的网站上。 我想将间隔设置为 5 分钟,但它始终采用默认间隔,即 30 分钟。我如何设置任意间隔? 最佳答案 如果@Seçkin 是对的,那么您无法
我按如下方式映射了我的实体: @OneToMany(fetch = FetchType.EAGER) @JoinTable(name = "ETAPA_TAREFA", joinColumns = {
嗨,我正在使用http://getuikit.com/docs/modal.html在我的网站上, 我的代码如下 Click to open modal
根据ISO 2 character codes uk = 英国。但是 Locale.UK.getCountry() 正在返回 GB。我错过了什么吗? 最佳答案 根据 this , The getCou
我正在尝试登录 Virtual Trader使用 python 请求模块的网站 - 我在这方面的经验有限,所以希望得到一些帮助。 之前我用下面的代码登录过类似的网站: import requests
题 请建议一种去除标点符号的方法,但不是 中的那些。或 . 例如,来自:the asbestos fiber $% with 产生:the asbestos fiber unk is unusu
我正在尝试限制 UK OS Grid References (easting and northing) 的大集合仅限那些在英国大陆的人。 -- 网格引用的背景 -- 操作系统“国家网格”由相对于原点
我有非常简单的代码,我通过 NSAttributedString 将 html 显示为 UILabel 的文本: let strValue = "Lorem Ipsum is simply dummy
您好,我正在尝试从字符串中提取英国邮政编码,即“此人的房子位于 SS9 8ID,我们将在晚上 8 点到达”,这样我就可以提取“SS9 8ID”位。我已经尝试过以下代码,但由于某种原因它不起作用....
我试图通过应对以下挑战来提高我的编程 (PHP) 技能。接下来的问题与其说是代码问题,也不是我要代码,而是应该应用的编程逻辑。 (9,'zxvvgf@housecapades.com',0,0
本文整理了Java中uk.co.real_logic.sbe.xml.XmlSchemaParser类的一些代码示例,展示了XmlSchemaParser类的具体用法。这些代码示例主要来源于Githu
我正在尝试创建一个函数来查看我的电子表格中的一个单元格并从页面 http://www.zoopla.co.uk/market/uk/ 返回 Zoopla 'Z-Index' .注意 market UR
我加载了一个简单的未打包的 Chrome 扩展。所有其他扩展均已关闭。 manifest.js { "manifest_version":2, "name":"Etc", "descrip
我正在尝试将 booking.date(格式为 01/06/2016)转换为格式 'EEEE, MMMM d, y ”(2016 年 6 月 1 日星期三)。我尝试过以下 AngularJS 过滤器
我正在尝试创建一个仅对目前在英国大学学习的学生开放的注册表单,因此需要确保他们输入的电子邮件地址以 .ac.uk 结尾。 我有以下 JS 函数,但它根本不起作用。 function valUniEma
我有这个实体模型(简化): @Entity class A { @Id String id; Collection bs; } @Entity class B { @Id Stri
我有一个在 Amazon EC2 上运行的 Java Web 应用程序(在单个实例上,在爱尔兰欧盟西部地区运行),它向基于英国的站点和 API 发出 HTTP 请求(碰巧使用 Apache HttpC
我是一名优秀的程序员,十分优秀!