gpt4 book ai didi

Java获取任何网站的所有网页(站点地图)

转载 作者:行者123 更新时间:2023-12-01 13:11:59 24 4
gpt4 key购买 nike

我想获取某个网站的所有网页,例如 bbc 网站(bbc.co.uk),它会得到 http://www.bbc.co.uk/news/ , http://www.bbc.co.uk/weather/等等

我能想到的一种方法是从主页开始收集所有链接,并对主页上的每个链接网页进行相同的收集。本质上,最终目标是为任何网站生成站点地图。

有人有比这更有效的其他解决方案吗?

谢谢。

最佳答案

可以使用Selenium来实现同样的效果

WebDriver driver = new FirefoxDriver();
driver.load("http://bbc.co.uk");
// get all links from page
List<WebElement> links = driver.findElements(By.tagName("a"));
for(WebElement link : links){
// Store link and do something
}

关于Java获取任何网站的所有网页(站点地图),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22782851/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com