gpt4 book ai didi

python - Scrapy CrawlSpider - 从数据属性中提取链接(LinkExtractor 规则)

转载 作者:太空宇宙 更新时间:2023-11-04 04:24:01 25 4
gpt4 key购买 nike

我无法让 LinkExtractor 在数据属性中查找链接。

HTML 看起来像这样:

<a href='#' data-url='/path/to/page' >

LinkExtractor 是这样的:

LinkExtractor(allow=('us/support/', ),attrs=('href','data-href','data-url',))

页面上存在其他链接,其 URL 在 HREF 中,并且 LinkExtractor 发现那些很好,只是数据属性不是。

我发现了关于根据数据属性查找标签的类似问题,但没有关于在 LinkExtractor 中使用数据属性值的问题。

我认为这很常见,所以我很惊讶我必须找到答案的麻烦。

感谢任何帮助。

谢谢!

最佳答案

这里的问题是你正在设置允许参数,它限制 LinkExtractor 只去寻找那些匹配的链接,你设置 attrs 参数是正确,只需删除 allow:

le = LinkExtractor(attrs=('href','data-href','data-url',))

关于python - Scrapy CrawlSpider - 从数据属性中提取链接(LinkExtractor 规则),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53858894/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com