gpt4 book ai didi

python - 从脚本运行蜘蛛时获取 scrapy crawl 命令的功能

转载 作者:行者123 更新时间:2023-11-29 12:04:48 32 4
gpt4 key购买 nike

我在一个 scrapy 项目中编写了一个爬行蜘蛛,它可以正确地从 url 中抓取数据并将响应通过管道传输到 postgresql 表中,但仅当使用 scrapy crawl 命令时。当蜘蛛从项目根目录中的脚本运行时,似乎只有蜘蛛类的解析方法被调用,因为仅使用 python 命令运行脚本时不会创建表。我认为问题是 crawl 命令有一个特定的协议(protocol),用于在 spiders 包上方的目录中查找和调​​用特定模块(例如模型、管道和设置模块),当蜘蛛运行时,这些模块不会被调用一个脚本。

我遵循了 docs 中包含的说明但他们似乎没有在数据被抓取后处理流水线数据。这就提出了一个问题,我什至应该尝试运行一个脚本来运行蜘蛛,或者我是否应该以某种方式使用 scrapy crawl 命令。问题是,我计划在用户以导致我进入 this SO post 的形式提交文本时从 django 项目运行 scrapy 蜘蛛。 ,但提供的答案似乎并没有解决我的问题。我还需要将表单中的文本添加到蜘蛛 url(我以前只是使用 raw_input 创建 url)。我应该如何正确地运行蜘蛛?如果需要,我有脚本代码和下面的蜘蛛代码。提供任何帮助/代码将不胜感激,谢谢。

脚本文件

from ticket_city_scraper import *
from ticket_city_scraper.spiders import tc_spider

tc_spider.spiderCrawl()

蜘蛛文件

import scrapy
import re
import json
from scrapy.crawler import CrawlerProcess
from scrapy import Request
from scrapy.contrib.spiders import CrawlSpider , Rule
from scrapy.selector import HtmlXPathSelector
from scrapy.selector import Selector
from scrapy.contrib.loader import ItemLoader
from scrapy.contrib.loader import XPathItemLoader
from scrapy.contrib.loader.processor import Join, MapCompose
from ticket_city_scraper.items import ComparatorItem
from urlparse import urljoin

bandname = raw_input("Enter bandname\n")
tc_url = "https://www.ticketcity.com/concerts/" + bandname + "-tickets.html"

class MySpider3(CrawlSpider):
handle_httpstatus_list = [416]
name = 'comparator'
allowed_domains = ["www.ticketcity.com"]

start_urls = [tc_url]
tickets_list_xpath = './/div[@class = "vevent"]'
def create_link(self, bandname):
tc_url = "https://www.ticketcity.com/concerts/" + bandname + "-tickets.html"
self.start_urls = [tc_url]
#return tc_url

tickets_list_xpath = './/div[@class = "vevent"]'

def parse_json(self, response):
loader = response.meta['loader']
jsonresponse = json.loads(response.body_as_unicode())
ticket_info = jsonresponse.get('B')
price_list = [i.get('P') for i in ticket_info]
if len(price_list) > 0:
str_Price = str(price_list[0])
ticketPrice = unicode(str_Price, "utf-8")
loader.add_value('ticketPrice', ticketPrice)
else:
ticketPrice = unicode("sold out", "utf-8")
loader.add_value('ticketPrice', ticketPrice)
return loader.load_item()

def parse_price(self, response):
print "parse price function entered \n"
loader = response.meta['loader']
event_City = response.xpath('.//span[@itemprop="addressLocality"]/text()').extract()
eventCity = ''.join(event_City)
loader.add_value('eventCity' , eventCity)
event_State = response.xpath('.//span[@itemprop="addressRegion"]/text()').extract()
eventState = ''.join(event_State)
loader.add_value('eventState' , eventState)
event_Date = response.xpath('.//span[@class="event_datetime"]/text()').extract()
eventDate = ''.join(event_Date)
loader.add_value('eventDate' , eventDate)
ticketsLink = loader.get_output_value("ticketsLink")
json_id_list= re.findall(r"(\d+)[^-]*$", ticketsLink)
json_id= "".join(json_id_list)
json_url = "https://www.ticketcity.com/Catalog/public/v1/events/" + json_id + "/ticketblocks?P=0,99999999&q=0&per_page=250&page=1&sort=p.asc&f.t=s&_=1436642392938"
yield scrapy.Request(json_url, meta={'loader': loader}, callback = self.parse_json, dont_filter = True)

def parse(self, response):
"""
# """
selector = HtmlXPathSelector(response)
# iterate over tickets
for ticket in selector.select(self.tickets_list_xpath):
loader = XPathItemLoader(ComparatorItem(), selector=ticket)
# define loader
loader.default_input_processor = MapCompose(unicode.strip)
loader.default_output_processor = Join()
# iterate over fields and add xpaths to the loader
loader.add_xpath('eventName' , './/span[@class="summary listingEventName"]/text()')
loader.add_xpath('eventLocation' , './/div[@class="divVenue location"]/text()')
loader.add_xpath('ticketsLink' , './/a[@class="divEventDetails url"]/@href')
#loader.add_xpath('eventDateTime' , '//div[@id="divEventDate"]/@title') #datetime type
#loader.add_xpath('eventTime' , './/*[@class = "productionsTime"]/text()')

print "Here is ticket link \n" + loader.get_output_value("ticketsLink")
#sel.xpath("//span[@id='PractitionerDetails1_Label4']/text()").extract()
ticketsURL = "https://www.ticketcity.com/" + loader.get_output_value("ticketsLink")
ticketsURL = urljoin(response.url, ticketsURL)
yield scrapy.Request(ticketsURL, meta={'loader': loader}, callback = self.parse_price, dont_filter = True)

def spiderCrawl():
process = CrawlerProcess({
'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})
process.crawl(MySpider3)
process.start()

最佳答案

回答你的问题

  1. Scrapy 不区分抓取命令和抓取命令行(来自脚本)执行。

您缺少的唯一部分(和区别)是:

  1. scrapy crawl 命令...总是而且必须从内部执行项目目录 ..scrapy.cfg 文件所在的位置....如果你仔细看,它包含设置文件所在的位置位于..和设置文件是你所有的中心位置项目特定设置位于..like..cache policy,管道、 header 设置、代理设置等所以在使用 scrapy crawl 时..所有这些设置都是内部加载的
  2. 对于从脚本执行 Scrapy...你只是提供了蜘蛛的位置以及它所在的位置并执行它没有任何来自 settings.py 文件的自定义设置

为使此设置生效..使用项目设置创建 crawlprocess 对象..

settings = get_project_settings()
settings.set('USER_AGENT','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)')
process = CrawlerProcess(settings)
process.crawl(MySpider3)
process.start()

关于python - 从脚本运行蜘蛛时获取 scrapy crawl 命令的功能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31640971/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com