gpt4 book ai didi

web-crawler - 运行蜘蛛(网络爬虫)以查找特定内容

转载 作者:行者123 更新时间:2023-12-01 02:52:38 25 4
gpt4 key购买 nike

首先我不知道这是否是这个问题的正确位置。如果没有,我很抱歉:)

我正在考虑编写一个蜘蛛来抓取网络以查找特定的嵌入文件。

但是我想知道 ISP 是否允许运行蜘蛛,因为它会以快速的速度发出大量请求。

或者我应该延迟请求吗?

我已经阅读了我的 ISP 的契约(Contract),但我找不到任何关于爬行的具体内容。

最佳答案

你可以看看 wget .它有一些有用的想法。您应该注意要抓取的站点上的 ROBOTS.txt。并且您应该在请求之间留出延迟,以免造成拒绝服务条件。

关于web-crawler - 运行蜘蛛(网络爬虫)以查找特定内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4359570/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com