- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在使用 scrapy 时遇到了一些问题。它没有返回任何结果。我试图将以下蜘蛛复制并粘贴到 scrapy shell 中,它确实有效。真的不确定问题出在哪里,但是当我用“scrapy crawl rxomega”运行它时,它不起作用。
from scrapy.selector import Selector
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import CrawlSpider, Rule
from iherb.items import IherbItem
class RxomegaSpider(CrawlSpider):
name = 'rxomega'
allowed_domains = ['http://www.iherb.com/']
start_urls = ['http://www.iherb.com/product-reviews/Natural-Factors-RxOmega-3-Factors-EPA-400-mg-DHA-200-mg-240-Softgels/4251/',
'http://www.iherb.com/product-reviews/Now-Foods-Omega-3-Cardiovascular-Support-200-Softgels/323/']
#rules = (
# Rule(SgmlLinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
#)
def parse_item(self, response):
print('hello')
sel = Selector(response)
sites = sel.xpath('//*[@id="mainContent"]/div[3]/div[2]/div')
items = []
for site in sites:
i = IherbItem()
i['review'] = site.xpath('div[5]/p/text()').extract()
items.append(i)
return items
我看到的消息是...scrapy 爬行 rxomega
2014-02-16 17:00:55-0800 [scrapy] INFO: Scrapy 0.22.0 started (bot: iherb)
2014-02-16 17:00:55-0800 [scrapy] INFO: Optional features available: ssl, http11, django
2014-02-16 17:00:55-0800 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'iherb.spiders', 'SPIDER_MODULES': ['iherb.spiders'], 'BOT_NAME': 'iherb'}
2014-02-16 17:00:55-0800 [scrapy] INFO: Enabled extensions: LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, SpiderState
2014-02-16 17:00:55-0800 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2014-02-16 17:00:55-0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2014-02-16 17:00:55-0800 [scrapy] INFO: Enabled item pipelines:
2014-02-16 17:00:55-0800 [rxomega] INFO: Spider opened
2014-02-16 17:00:55-0800 [rxomega] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2014-02-16 17:00:55-0800 [scrapy] DEBUG: Telnet console listening on 0.0.0.0:6026
2014-02-16 17:00:55-0800 [scrapy] DEBUG: Web service listening on 0.0.0.0:6083
2014-02-16 17:00:55-0800 [rxomega] DEBUG: Crawled (200) <GET http://www.iherb.com/product-reviews/Natural-Factors-RxOmega-3-Factors-EPA-400-mg-DHA-200-mg-240-Softgels/4251/> (referer: None)
2014-02-16 17:00:56-0800 [rxomega] DEBUG: Crawled (200) <GET http://www.iherb.com/product-reviews/Now-Foods-Omega-3-Cardiovascular-Support-200-Softgels/323/> (referer: None)
2014-02-16 17:00:56-0800 [rxomega] INFO: Closing spider (finished)
2014-02-16 17:00:56-0800 [rxomega] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 588,
'downloader/request_count': 2,
'downloader/request_method_count/GET': 2,
'downloader/response_bytes': 37790,
'downloader/response_count': 2,
'downloader/response_status_count/200': 2,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2014, 2, 17, 1, 0, 56, 22065),
'log_count/DEBUG': 4,
'log_count/INFO': 7,
'response_received_count': 2,
'scheduler/dequeued': 2,
'scheduler/dequeued/memory': 2,
'scheduler/enqueued': 2,
'scheduler/enqueued/memory': 2,
'start_time': datetime.datetime(2014, 2, 17, 1, 0, 55, 256404)}
2014-02-16 17:00:56-0800 [rxomega] INFO: Spider closed (finished)
最佳答案
genspider 特性创建了一个 CrawlSpider 和 parse_item,但是教程使用了 Spider 和 parse。两者都是 0.22 版本。更改为 Spider 并解析上面的代码,它就可以工作了。
关于python - Scrapy:已抓取 0 页(可在 scrapy shell 中使用,但不适用于 scrapy crawl spider 命令),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21819055/
我想从 Amazon S3 下载 WAT 存档段的子集。 背景: 搜索 http://index.commoncrawl.org 处的 Common Crawl 索引会生成包含有关 AWS S3 上
我已经安装了完全分布式的 Hadoop 1.2.1。我试图通过以下步骤集成 nutch: 下载apache-nutch-1.9-src.zip 在nutch-site.xml中添加值http.agen
我尝试使用 nutch 2.1 抓取一些网址,如下所示。 bin/nutch crawl urls -dir crawl -depth 3 -topN 5 http://wiki.apache.org
就目前情况而言,这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放,visit
我正在尝试发现本地存储库中安装的原型(prototype)。我读到可以运行以下命令: mvn archetype:crawl 现在,当我运行此命令时,我收到此错误: [ERROR] Faile
我正在使用 Rcrawler 来抓取 url 向量。对于大多数人来说,它运行良好,但时不时地他们中的一个人不会被抓取。起初我只是在 https://网站上注意到这一点,该网站的地址为 here 。但我
看了“Why Johnny Can’t Pentest: An Analysis of Black-box Web Vulnerability Scanners”,了解到有些网站,比如日历应用,爬虫很
在一个有多个爬虫的 scrapy 项目中,输入 scrapy crawl 时的制表符补全非常慢(约 5 秒)。有什么方法可以在尝试运行时禁用制表符补全 scrapy crawl ? 最佳答案 scr
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 关闭 10 年前。 Improve thi
我是 python 的新手。我在 64 位操作系统上运行 python 2.7.3 32 位版本。 (我尝试了 64 位,但它没有锻炼)。 我按照教程在我的机器上安装了scrapy。我创建了一个项目,
有谁知道如何创建“文本抓取”,如 iPhone 版 ESPN ScoreCenter 应用程序底部所示的那样? 基本上,屏幕底部有一小段文本,并且文本是动画的,以便它在屏幕上从右向左缓慢移动。 任何人
我正在尝试提取有关 kaggle 提供的各种比赛的数据。 我尝试通过 shell 以及代码从网站获取数据,但失败了。我尝试将 HTTPERROR_ALLOWED_CODES = [404] 添加到se
无法让 scrapy 教程工作。 我正在尝试学习 scrapy,但甚至无法运行教程。我尝试在 python 3.7 和 3.5.5 中运行它,得到相同的结果 导入scrapy 类 QuotesSpid
我在一个 scrapy 项目中编写了一个爬行蜘蛛,它可以正确地从 url 中抓取数据并将响应通过管道传输到 postgresql 表中,但仅当使用 scrapy crawl 命令时。当蜘蛛从项目根目录
您好,我想使用 Scrapy CrawlSpider 类 (Documentation here) 抓取 Web 的所有页面。 class MySpider(CrawlSpider): nam
我正在尝试使用 Scrapy 和 XPath 选择器抓取网页。我已经使用 chrome 测试了我的 XPath 选择器。看来我的蜘蛛抓取了零个页面并抓取了 0 个项目。我该怎么做才能纠正它?我从抓取中
下面项目中常用的爬取索引文件 https://github.com/trivio/common_crawl_index/blob/master/bin/remote_copy mmap = BotoM
我有带 2 个数据节点服务器的 nutch/hadoop。我尝试抓取一些网址,但 nutch 失败并出现此错误: Fetcher: segment: crawl/segments Fetcher: o
这可能是 Passing arguments to process.crawl in Scrapy python 的子问题但作者将答案(没有回答我问自己的子问题)标记为令人满意的答案。 这是我的问题:
出于开发目的,我想在第一个异常(在蜘蛛或管道中)发生后立即停止所有抓取事件。 有什么建议吗? 最佳答案 在蜘蛛中,你可以直接抛出 CloseSpider异常(exception)。 def parse
我是一名优秀的程序员,十分优秀!