gpt4 book ai didi

离线(本地)数据的 Python Scrapy

转载 作者:太空狗 更新时间:2023-10-29 17:21:48 25 4
gpt4 key购买 nike

我的电脑上有一个 270MB 的数据集(10000 个 html 文件)。我可以使用 Scrapy 在本地爬取这个数据集吗?怎么办?

最佳答案

简单的 HTTP 服务器托管

如果你真的想在本地托管它并使用 scrapy,你可以通过导航到它存储的目录并运行 SimpleHTTPServer(如下所示的端口 8000)来提供它:

python -m SimpleHTTPServer 8000

然后只需将 scrapy 指向 127.0.0.1:8000

$ scrapy crawl 127.0.0.1:8000

文件://

另一种方法是让 scrapy 直接指向文件集:

$ scrapy crawl file:///home/sagi/html_files # Assuming you're on a *nix system

总结

一旦你为 scrapy 设置了你的爬虫(参见 example dirbot ),只需运行爬虫:

$ scrapy crawl 127.0.0.1:8000

如果 html 文件中的链接是绝对链接而不是相对链接,则这些链接可能无法正常工作。您需要自己调整文件。

关于离线(本地)数据的 Python Scrapy,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19385837/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com