java - 如何使用Jsoup爬取单个网站？-6ren

java - 如何使用Jsoup爬取单个网站？

转载作者：行者123 更新时间：2023-11-30 03:48:59

我从网站主页开始。我正在解析整个网页，并收集该主页上的所有链接并将它们放入队列中。然后我从队列中删除每个链接并执行相同的操作，直到获得我想要的文本。但是，如果我得到像 youtube.com/something 这样的链接，那么我将访问 youtube 上的所有链接。我想限制这一点。

我只想在同一域内进行爬网。我该怎么做？

private void crawler() throws IOException {
    while (!q.isEmpty()){
        String link  = q.remove();
        System.out.println("------"+link);
        Document doc = Jsoup.connect(link).ignoreContentType(true).timeout(0).get();
        if(doc.text().contains("publicly intoxicated behavior or persistence")){
            System.out.println("************ On this page ******************");
            System.out.println(doc.text());
            return;
        }
        Elements links = doc.select("a[href]");
        for (Element link1 : links){ 
            String absUrl = link1.attr("abs:href");
            if (absUrl == null || absUrl.length() == 0) {
                continue;
            }
//          System.out.println(absUrl);
            q.add(absUrl);
        }
    }
}