gpt4 book ai didi

python - Scrapy 从文件中读取 URL 列表以进行抓取?

转载 作者:太空狗 更新时间:2023-10-29 17:52:29 24 4
gpt4 key购买 nike

我刚刚安装了 scrapy 并遵循了他们简单的 dmoz tutorial哪个有效。我只是查找了 python 的基本文件处理,并试图让爬虫从文件中读取 URL 列表,但出现了一些错误。这可能是错误的,但我试了一下。有人可以给我看一个将 URL 列表读入 scrapy 的例子吗?提前致谢。

from scrapy.spider import BaseSpider

class DmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
f = open("urls.txt")
start_urls = f

def parse(self, response):
filename = response.url.split("/")[-2]
open(filename, 'wb').write(response.body)

最佳答案

你非常接近。

f = open("urls.txt")
start_urls = [url.strip() for url in f.readlines()]
f.close()

...更好的方法是使用上下文管理器来确保文件按预期关闭:

with open("urls.txt", "rt") as f:
start_urls = [url.strip() for url in f.readlines()]

关于python - Scrapy 从文件中读取 URL 列表以进行抓取?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8376630/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com