gpt4 book ai didi

java - 用 Java 抓取网站

转载 作者:太空宇宙 更新时间:2023-11-04 08:51:36 24 4
gpt4 key购买 nike

我想做的是获取 URL 列表并下载每个 URL 的内容(用于索引)。最大的问题是,如果我遇到类似 facebook 事件的链接,它只是重定向到登录页面,我需要能够检测并跳过该 URL。 robots.txt 文件似乎就是为了这个目的而存在的。我研究了heritrix,但这似乎超出了我的需要。是否有一个更简单的工具可以提供有关 robots.txt 的信息并相应地抓取网站?

(此外,我不需要跟踪其他链接并建立深度索引,我只需要为列表中的各个页面建立索引。)

最佳答案

关于java - 用 Java 抓取网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3197592/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com