gpt4 book ai didi

python - 如何像简单脚本一样以编程方式运行 scrapy 蜘蛛?

转载 作者:太空狗 更新时间:2023-10-30 00:58:53 26 4
gpt4 key购买 nike

我创建了一个 Scrapy 蜘蛛。但我想将它作为脚本运行。我该怎么做。现在我可以在终端中通过这个命令运行:

$ scrapy crawl book -o book.json

但我想像运行一个简单的 python 脚本一样运行它

enter image description here

最佳答案

不使用项目,可以直接在python脚本中运行spider。

你必须使用 scrapy.crawler.CrawlerProcessscrapy.crawler.CrawlerRunner
但我不确定它是否具有项目中的所有功能。

在文档中查看更多信息:Common Practices

或者您可以将命令放在 Linux 上的 bash 脚本中或 Windows 上的 .bat 文件中。

顺便说一句:在 Linux 上,您可以在第一行添加 shebang (#!/bin/bash) 并设置属性“executable”-
IE。 chmod +x your_script - 它将像正常程序一样运行。


工作示例

#!/usr/bin/env python3

import scrapy

class MySpider(scrapy.Spider):

name = 'myspider'

allowed_domains = ['http://quotes.toqoute.com']

#start_urls = []

#def start_requests(self):
# for tag in self.tags:
# for page in range(self.pages):
# url = self.url_template.format(tag, page)
# yield scrapy.Request(url)

def parse(self, response):
print('url:', response.url)

# --- it runs without project and saves in `output.csv` ---

from scrapy.crawler import CrawlerProcess

c = CrawlerProcess({
'USER_AGENT': 'Mozilla/5.0',
'FEED_FORMAT': 'csv',
'FEED_URI': 'output.csv',
})
c.crawl(MySpider)
c.start()

关于python - 如何像简单脚本一样以编程方式运行 scrapy 蜘蛛?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47793131/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com