gpt4 book ai didi

Python Scrapy - 如何同时从2个不同的网站抓取?

转载 作者:行者123 更新时间:2023-12-01 06:25:45 25 4
gpt4 key购买 nike

我需要从 Excel 中给出的域列表中抓取数据;问题是我需要从原始网站(例如: https://www.lepetitballon.com )和类似技术( https://www.similartech.com/websites/lepetitballon.com )中抓取数据。

我希望它们同时抓取,这样我就可以接收它们并在最后格式化它们一次,之后我将转到下一个域。

理论上,我应该只使用 2 个蜘蛛以异步方式使用 scrapy?

最佳答案

理想情况下,您希望将抓取不同结构网站的蜘蛛分开,这样从长远来看您的代码将更容易维护。

理论上,如果由于某种原因您必须在同一个蜘蛛中解析它们,您可以只收集您想要抓取的 URL,并根据基本路径调用不同的解析器回调方法。话虽这么说,我个人想不出你必须这样做的原因。即使您具有相同的结构,您也可以重复使用 scrapy.Item 类。

关于Python Scrapy - 如何同时从2个不同的网站抓取?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60152670/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com