- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试抓取 Erowid 并收集有关体验的数据。我试图从有关药物的一般信息转化为实际体验本身。
但是 LinkExtractor 似乎无法正常工作。
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.selector import HtmlXPathSelector
from Erowid.items import ErowidItem
class ExperiencesSpider(CrawlSpider):
name = "test"
allowed_domains = ["www.erowid.org"]
start_urls = ['https://www.erowid.org/experiences/subs/exp_aPVP.shtml']
rules = [
Rule(LinkExtractor(allow =('/experiences/exp.php?ID=[0-9]+')), callback = 'parse_item', follow = True)
]
def parse_item(self, response):
[other code]
来自https://www.erowid.org/experiences/subs/exp_aPVP.shtml ,我正在尝试获得 href 为
的体验/experiences/exp.php?ID= (some digits)
我在 ID 后找不到正确的代码,并且我已经尝试过各种不同的正则表达式,包括
\d+ and [0-9]+
该错误是由不正确的正则表达式引起的吗?如果是,那么正确的正则表达式是什么?如果不是,那么为什么会出现此错误以及如何修复它?
最佳答案
这是适合我的表达方式:
/experiences/exp\.php\?ID=\d+$
以下是规则
的外观:
rules = [
Rule(LinkExtractor(allow=r'/experiences/exp\.php\?ID=\d+$'),
callback='parse_item', follow=True)
]
关于python - Scrapy:LinkExtractor 不工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31996741/
我正在尝试抓取 Erowid 并收集有关体验的数据。我试图从有关药物的一般信息转化为实际体验本身。 但是 LinkExtractor 似乎无法正常工作。 import scrapy from scra
我正在研究 Scrapy 库并尝试制作一个小爬虫。 这是爬虫的规则: rules = ( Rule(LinkExtractor(restrict_xpaths='//div[@class="w
我的爬虫实现如下。 它正在运行,它将通过受 link extractor 监管的站点。 基本上我要做的是从页面的不同位置提取信息: - 类“新闻”下的 href 和 text()(如果存在) - 类“
我有一个这样的爬虫: class SkySpider(CrawlSpider): name = "spider_v1" allowed_domains = [ "ats
我正在使用 CrawlSpider 和 LinkExtractor 来抓取链接。 我如何将参数附加到 LinkExtractor 找到的链接?我想将 '?pag_sortorder=0&pag_per
我正在尝试从亚马逊抓取一个类别,但我在 Scrapy 中获得的链接与浏览器中的链接不同。现在,我正在尝试跟踪下一页,并在 Scrapy 中(将 response.body 打印到 txt 文件中)我看
with open('/home/timmy/myamazon/bannedasins.txt') as f: banned_asins = f.read().split('\n') clas
我正在尝试使用 Scrapy 从页面中提取所有链接,但我很难使用 LinkExtractor。我尝试了以下方法: import scrapy from scrapy.spiders import Cr
我是 scrapy 框架的新手,我看过一些使用 LinkExtractors 的教程和一些使用 SgmlLinkExtractor 的教程。我曾尝试寻找两者的差异/利弊,但结果并不令人满意。 谁能告诉
我正在使用一个 CrawlSpider,它使用链接提取递归地跟踪调用下一页的链接,例如: rules = (Rule(LinkExtractor( allow=(),\
因此,我传入一个 start_url,它是新闻文章页面(例如 cnn.com )。但是,我只想提取新闻文章本身,我不想跟踪文章页面上的任何链接。为此,我使用 CrawlSpider遵循以下规则: ru
我试图在 Scrapy 的 CrawlSpider 中限制每个 URL 的抓取页面数量。我有一个 start_urls 列表,我想对每个 URL 中抓取的页面数量设置限制。一旦达到限制,蜘蛛应该移动到
我无法让 LinkExtractor 在数据属性中查找链接。 HTML 看起来像这样: LinkExtractor 是这样的: LinkExtractor(allow=('us/support/',
无法弄清楚为什么 scrapy 中的 CrawlSpider 尽管设置了规则但不进行分页。 但是,如果将start_url更改为http://bitcoin.travel/listing-catego
所以我正在尝试使用 CrawlSpider 并理解 Scrapy Docs 中的以下示例: import scrapy from scrapy.spiders import CrawlSpider,
我致力于在网站上进行抓取,我使用 LinkExtractor 从 scrapy 抓取链接并确定其响应状态。 此外,我还想使用链接提取器从站点获取图像源。我有一个代码,它适用于网站网址,但我似乎无法获取
我致力于在网站上进行抓取,我使用 LinkExtractor 从 scrapy 抓取链接并确定其响应状态。 此外,我还想使用链接提取器从站点获取图像源。我有一个代码,它适用于网站网址,但我似乎无法获取
我正在尝试遵循网站的所有 css 样式表,例如https://www.thomann.de/de/index.html 我继承自 scrapy CrawlSpider 类并使用 LxmlLinkExt
我创建了一个简单的蜘蛛来抓取 disneyfoodblog.com 帖子并返回帖子标题和帖子永久链接。 我的项目没有显示任何错误。调试输出(见下文)显示所有起始链接都已访问,但这些页面上的链接没有被抓
我要抓取页面http://www.douban.com/tag/%E7%88%B1%E6%83%85/movie 。我的蜘蛛代码的一部分是: class MovieSpider(CrawlSpider
我是一名优秀的程序员,十分优秀!