- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试创建一个在名为 https://en.wikipedia.org/wiki/North_Korea_and_weapons_of_mass_destruction 的维基百科页面上启动的蜘蛛。然后抓取我提供给它的文本和图像文件。它似乎有效,但我只得到第一个响应(不会转到以下页面。任何帮助将不胜感激。
这是我的代码:
import scrapy
from scrapy.spiders import Request
from scrapy.linkextractors import LinkExtractor
import re
BASE_URL = 'http://en.wikipedia.org'
PROTOCOL = 'https:'
class MissleSpiderBio(scrapy.Spider):
name = 'weapons_bio'
allowed_domains = ['https://en.wikipedia.org']
start_urls = ['https://en.wikipedia.org/wiki/...'] //url above
def parse(self, response):
filename = response.url.split('/')[-1]
h4s = response.xpath('//h4')
text = response.css("#mw-content-text > div > p:nth- \
child(2)::text").extract()
if text:
images = response.css("#mw-content-text > div > table>
tbody > tr:nth-child(2) > td > a >
img::attr(src)").extract()
yield {'body': text, 'image_urls':[PROTOCOL+
images[0]]}
else:
yield {'empty': "not found"}
for next_page in response.css('#mw-content-text > div > ul
> li > b > a::attr(href)').extract():
print(BASE_URL + next_page)
yield response.follow(BASE_URL + next_page, \
callback=self.parse)
最佳答案
有几件事你可以尝试
而不是
中的http
BASE_URL = 'http://en.wikipedia.org'
设置为
BASE_URL = 'https://en.wikipedia.org'
第二件事,注释掉这一行
allowed_domains = ['https://en.wikipedia.org']
我认为这就是为什么它没有点击链接
关于python - Scrapy Scraper 不会抓取除比第一页更远的内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52917123/
SCENARIO 有两页,第一页是HomePage,它在flutter_bloc软件包的帮助下自动获取api数据。在首页(第一页)中,还有一个按钮,可在此代码Navigator.push(contex
我检查过类似的问题,但由其他人发布,但我仍然看不到我的代码有什么问题。 我刚刚从文档中复制了它 - https://symfony.com/doc/3.4/page_creation.html Luc
我已经编写了一段代码,使用Python中的Scrapy来抓取页面。下面我粘贴了 main.py 代码。但是,每当我运行我的蜘蛛时,它仅从第一页抓取(DEBUG:从抓取),这也是请求中的Referer标
我创建了一个 ios 图书阅读器应用程序。在这个应用程序中,我集成了 google drive 和 skydrive 。现在我可以从 google drive 和 skydrive 登录和检索数据了。
效果图: 功能简介:可使用上下键选中行,选中后点击修改,textbox获得gridview中的代码的数据。对你有帮助的话,请记得要点击“好文要顶”哦!!!不懂的,请留言。废话不多说了,贴码如下
我是一名优秀的程序员,十分优秀!