python - 仅使用 python、html 下载 amazon.co.uk 网页，就像 firebug 看到的那样-6ren

python - 仅使用 python、html 下载 amazon.co.uk 网页，就像 firebug 看到的那样

转载作者：行者123 更新时间：2023-12-01 06:02:46

25

4

我注意到使用 urllib 下载网页:

http://www.amazon.co.uk/Darkness-II-Limited-PC-DVD/dp/B005ULLEX6

我使用 urlopen( url ).read() 返回的内容与 firebug 看到的不同。

示例:

如果你将firebug指向页面的图像区域，它会告诉你存在一个div id="prodImageCell"，但是当查看python打开的内容时，没有这样的东西，因此beautifulsoup没有没有找到任何东西。

这是因为图像是使用 JavaScript 生成的吗？

问题:

如果是这样，有没有一种方法可以使用 urllib 下载与 firebug 看到的几乎完全相同的东西(而不是使用像 Selenium 这样的东西)。

我正在尝试以编程方式获取其中一张图像的源网址，这里的示例是带有 prodImageCell 的 div 具有 src=http://ecx.images-amazon.com/images/I/51uPDvJGS3L。AA300 .jpg 这确实是图像的 url。

答案:

无法正确回答，因为我没有声誉:(

感谢 @huelbois 为我指明了正确的方向，找到了解决方案，需要使用用户代理 header 。

之前

>>> import urllib2
>>> import re
>>> site = urllib2.urlopen('http://www.amazon.co.uk/\
Darkness-II-Limited-PC-DVD/dp/B005ULLEX6').read()
>>> re.search( 'prodImageCell', site )
>>>

之后

>>> user_agent = "Mozilla/5.0 (Windows NT 5.1; rv:7.0.1) Gecko/20100101\
Firefox/7.0.1"
>>> headers = {'User-Agent':user_agent}
>>> req = urllib2.Request(url=url,headers=headers)
>>> site = urllib2.urlopen(req).read()
>>> re.search( 'prodImageCell', site )
<_sre.SRE_Match object at 0x01487DB0>

万岁!

最佳答案

刚刚使用 wget 对其进行了测试(将像 urrlib 一样工作)。您必须包含 User-Agent header 才能获取请求的部分:

wget -O- --header='用户代理:Mozilla/5.0(Windows NT 6.1；rv:9.0.1)Gecko/20100101 Firefox/9.0.1' http://www.amazon.co.uk/Darkness-II-Limited-PC-DVD/dp/B005ULLEX6

返回包含请求部分的 html 页面。

哎呀:刚刚看到你按照我之前的建议成功了。太棒了!

关于python - 仅使用 python、html 下载 amazon.co.uk 网页，就像 firebug 看到的那样，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9413131/

25

4

0

文章推荐： python - 如何不断尝试连接套接字直到它出现？

文章推荐： Python:将 Shapely 对象导出到 DXF 文件

文章推荐： python - 使用 django 进行 mp3 流传输的问题

文章推荐： jquery facebook wall .live

bash - 如何理解 'sort -uk 4n -uk 6n -uk 9n ' 、 'sort -uk 4 -uk 6 -uk 9' 和 'sort -uk 4,4 -uk 6,6 -uk 9,9' 之间的区别？
我有大量具有不同列号的数据。我只想输出 11 列的数据，并按第 4、6 和 9 列对它们进行排序。如果我使用 awk NF==11 17144_bondlength.dat |sort -uk 4 -
使用 name.co.uk 或 name-something.co.uk 时的 MySQL ORDER BY
你好，我有我使用的代码 ORDER BY domain_name ASC 并得到像这样的结果 name-somethinga.co.uk name-somethingb.co.uk name.co.u
html - 为什么应用 uk-width-1-1 会影响 uk-grid 的子 div 但不会影响子的嵌套 div？
为什么在此实现中未应用 100% 宽度(其中类 uk-width-1-1 应用于网格容器子项的嵌套 div): Row 01
javascript - 在data-uk-timepicker中设置间隔
我正在使用 data-uk-timepicker在我的网站上。我想将间隔设置为 5 分钟，但它始终采用默认间隔，即 30 分钟。我如何设置任意间隔？最佳答案如果@Seçkin 是对的，那么您无法
mysql - inverseJoinColumns 注释在数据库中自动创建 UK
我按如下方式映射了我的实体: @OneToMany(fetch = FetchType.EAGER) @JoinTable(name = "ETAPA_TAREFA", joinColumns = {
JavaScript uk-modal-关闭并重新加载页面
嗨，我正在使用http://getuikit.com/docs/modal.html在我的网站上，我的代码如下 Click to open modal
java - Locale.UK 和国家代码
根据ISO 2 character codes uk = 英国。但是 Locale.UK.getCountry() 正在返回 GB。我错过了什么吗？最佳答案根据 this , The getCou
python - 使用python请求或类似模块登录www.virtualtrader.co.uk？
我正在尝试登录 Virtual Trader使用 python 请求模块的网站 - 我在这方面的经验有限，所以希望得到一些帮助。之前我用下面的代码登录过类似的网站: import requests
Python regex - 删除标点符号但保留原样
题请建议一种去除标点符号的方法，但不是中的那些。或 . 例如，来自:the asbestos fiber $% with 产生:the asbestos fiber unk is unusu
java - 英国大陆 OS UK 网格引用
我正在尝试限制 UK OS Grid References (easting and northing) 的大集合仅限那些在英国大陆的人。 -- 网格引用的背景 -- 操作系统“国家网格”由相对于原点
ios - NSAttributedString 行间距打破布局
我有非常简单的代码，我通过 NSAttributedString 将 html 显示为 UILabel 的文本: let strValue = "Lorem Ipsum is simply dummy
java - 安卓 : extract uk postcode
您好，我正在尝试从字符串中提取英国邮政编码，即“此人的房子位于 SS9 8ID，我们将在晚上 8 点到达”，这样我就可以提取“SS9 8ID”位。我已经尝试过以下代码，但由于某种原因它不起作用....
php - 循环数据提取所有以 .co.uk 结尾的电子邮件地址
我试图通过应对以下挑战来提高我的编程 (PHP) 技能。接下来的问题与其说是代码问题，也不是我要代码，而是应该应用的编程逻辑。 (9,'zxvvgf@housecapades.com',0,0
uk.co.real_logic.sbe.xml.XmlSchemaParser类的使用及代码示例
本文整理了Java中uk.co.real_logic.sbe.xml.XmlSchemaParser类的一些代码示例，展示了XmlSchemaParser类的具体用法。这些代码示例主要来源于Githu
vba - 从 zoopla.co.uk 获取数据
我正在尝试创建一个函数来查看我的电子表格中的一个单元格并从页面 http://www.zoopla.co.uk/market/uk/ 返回 Zoopla 'Z-Index' .注意 market UR
javascript - Chrome 扩展程序阻止 google.co.uk
我加载了一个简单的未打包的 Chrome 扩展。所有其他扩展均已关闭。 manifest.js { "manifest_version":2, "name":"Etc", "descrip
javascript - 将 UK 格式和 Django 格式的日期转换为真实日期
我正在尝试将 booking.date(格式为 01/06/2016)转换为格式 'EEEE, MMMM d, y ”(2016 年 6 月 1 日星期三)。我尝试过以下 AngularJS 过滤器
javascript - 识别大学电子邮件地址的正则表达式(以 .ac.uk 结尾)
我正在尝试创建一个仅对目前在英国大学学习的学生开放的注册表单，因此需要确保他们输入的电子邮件地址以 .ac.uk 结尾。我有以下 JS 函数，但它根本不起作用。 function valUniEma
java - @ManyToMany JPA 关系在连接表和 UK 中使用二度关系
我有这个实体模型(简化): @Entity class A { @Id String id; Collection bs; } @Entity class B { @Id Stri
java - 从 EC2 访问 UK API
我有一个在 Amazon EC2 上运行的 Java Web 应用程序(在单个实例上，在爱尔兰欧盟西部地区运行)，它向基于英国的站点和 API 发出 HTTP 请求(碰巧使用 Apache HttpC

首页

博学

6Ren·AI

商城

python - 仅使用 python、html 下载 amazon.co.uk 网页，就像 firebug 看到的那样