gpt4 book ai didi

python - 来自 2500 个链接的网页抓取 - 行动方案?

转载 作者:行者123 更新时间:2023-12-01 04:29:07 25 4
gpt4 key购买 nike

我有近 2500 个独特的链接,我想从中运行 BeautifulSoup 并收集 2500 个页面中每个页面的段落中捕获的一些文本。我可以为每个链接创建变量,但拥有 2500 个显然不是最有效的做法。这些链接包含在如下列表中:

linkslist = ["http://www.website.com/category/item1","http://www.website.com/category/item2","http://www.website.com/category/item3", ...]

我应该编写一个如下所示的 for 循环吗?

for link in linkslist:
opened_url = urllib2.urlopen(link).read()
soup = BeautifulSoup(opened_url)
...

我正在寻找任何建设性的批评。谢谢!

最佳答案

这是 Scrapy 的一个很好的用例- 基于 Twisted 的流行网络抓取框架:

Scrapy is written with Twisted, a popular event-driven networking framework for Python. Thus, it’s implemented using a non-blocking (aka asynchronous) code for concurrency.

设置蜘蛛的 start_urls 属性并在 parse() 回调中解析页面:

class MySpider(scrapy.Spider):
name = "myspider"
start_urls = ["http://www.website.com/category/item1","http://www.website.com/category/item2","http://www.website.com/category/item3", ...]
allowed_domains = ["website.com"]

def parse(self, response):
print response.xpath("//title/text()").extract()

关于python - 来自 2500 个链接的网页抓取 - 行动方案?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32642034/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com