gpt4 book ai didi

web - 抓取网站时如何确定循环的停止点

转载 作者:行者123 更新时间:2023-12-04 19:55:05 27 4
gpt4 key购买 nike

我的程序当前遍历网站的页面以收集信息。当我访问了所有网站页面时,如何设置我的循环结束?

是否有某种方法可以了解任何站点中的网页数量?或者我是否比较了我访问过的页面 block ,例如 10,如果再次按该顺序检查页面,我知道它会重复。

我确信必须有更好的方法来知道何时停止。

最佳答案

跟踪访问过的页面(可能将访问过的 URL 保存在一个集合中)并在尝试扫描新页面时检查它是否已被访问过。

关于web - 抓取网站时如何确定循环的停止点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24488760/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com