gpt4 book ai didi

python - 尽管 dont_filter=False,Scrapy 仍访问相同的 URL

转载 作者:太空宇宙 更新时间:2023-11-03 18:00:47 25 4
gpt4 key购买 nike

问题:Scrapy 不断访问单个网址并不断递归地抓取它。我已经检查了response.url以确保这是一个它不断抓取的单个页面,并且不涉及可能为不同的url呈现相同页面的查询字符串。

我已经做了什么来解决这个问题:

  1. 在 Scrapy/spider.py 下,我注意到 dont_filter 设置为 True 并将其更改为 False。但这没有帮助
  2. 我也在代码中设置了 unique = True ,但这也没有帮助。

其他信息

作为 start_url 给出的页面只有 1 个指向页面 a.html 的链接。 Scrapy 不断地一次又一次地抓取 a.html。

代码

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
from kt.items import DmozItem

class DmozSpider(CrawlSpider):
name = "dmoz"
allowed_domains = ["datacaredubai.com"]
start_urls = ["http://www.datacaredubai.com/aj/link.html"]
rules = (
Rule(SgmlLinkExtractor(allow=('/aj'),unique=('Yes')), callback='parse_item'),
)


def parse_item(self, response):
sel = Selector(response)
sites = sel.xpath('//*')
items = []
for site in sites:
item = DmozItem()
item['title']= site.xpath('/html/head/meta[3]').extract()
item['req_url']= response.url
items.append(item)
return items

最佳答案

默认情况下,Scrapy 会附加到输出文件(如果存在)中。您在 output.csv 中看到的是多个蜘蛛运行的结果。在再次运行蜘蛛之前删除 output.csv

关于python - 尽管 dont_filter=False,Scrapy 仍访问相同的 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27717374/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com