gpt4 book ai didi

python - 在哪里可以了解 scrapy SgmlLinkExtractor?

转载 作者:行者123 更新时间:2023-12-01 05:47:12 24 4
gpt4 key购买 nike

抱歉,我对 python 和 scrapy 非常陌生,试图通过反复试验来学习它们。

关于SgmlLinkExtractor,我看到每个人(至少在这个网站上)都非常擅长找到正确的代码来表示正确的路径,我在哪里/如何学习?例如 (allow=[r'page/\d+'])allow=[r'series-\d{1}-episode-\d{2}.']等等等等

我正在尝试删除一个网站,其内容始终为story.html,链接格式如下:

http://www.example.com/folder/category/description/1234567/story.html

*注1234567是一个变化的7位数字

我的起始网址是 http://www.example.com/folder/

我正在尝试使用 SgmlLinkExtractor 并定义我的路径,如下所示。我想包含 url 的描述部分和 7 位数字部分中的所有内容。我想确保网址以 story.html 结尾:

Rule(SgmlLinkExtractor(allow=(r'category1/././story\.html',)),callback='parse_item', follow=True),

但显然/././不允许我跳过两个子级别来到达story.html

编写此 SgmlLinkExtractor 的正确方法是什么?

最佳答案

试试这个

Rule(SgmlLinkExtractor(allow=(r'category1/description/\d+/story\.html',)), callback='parse_item', follow=True)

但我建议您仅使用 /description/\d+/story\.html 这部分,因为它的独特性足以抓取类别

在规则中我们传递正则表达式,所以你只需要学习 regex ,有一堆online regex tester工具可用

关于python - 在哪里可以了解 scrapy SgmlLinkExtractor?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15651417/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com