gpt4 book ai didi

url - Scrapy:遵循具有特定规则的 URL

转载 作者:行者123 更新时间:2023-12-02 22:16:52 24 4
gpt4 key购买 nike

我是 Scrapy 的新手,我无法在任何地方找到我需要做的事情。

我需要抓取一组非常相似的 URL,但我无法从一个到另一个访问。例如,我需要抓取以下网址:

www.example.com/1.html
www.example.com/2.html
(...)
www.example.com/1000.html

但是在第一页上没有到其他页面的链接,即是独立的。

我该怎么做?(对不起我的英语)

像这样:

class MySpider(BaseSpider):
name = 'example.com'
allowed_domains = ['example.com']
Start_urls = [
'http://www.example.com/1.html',
'http://www.example.com/2.html',
'http://www.example.com/3.html',
]

但对于超过3个不同的页面

谢谢!

最佳答案

如果页面都是这种形式 (www.example.com/x.html),那么您可以这样做:

start_urls = ['http://www.example.com/%s.html' % page for page in xrange(1, 1000)]

关于url - Scrapy:遵循具有特定规则的 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14320156/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com