gpt4 book ai didi

java - 获取页面的完整 html 源代码以制作网络爬虫

转载 作者:行者123 更新时间:2023-12-01 11:04:06 25 4
gpt4 key购买 nike

我正在尝试用java制作一个网络爬虫,它获取网页的URL并导航到给定网页源代码中存在的其他页面。问题是,我在 jsoup 的帮助下获取了 HTML 源代码,其中包含各种标签,如框架和一些 javascript 文件名。现在要导航到其他页面,我需要访问框架和 JavaScript 文件中给出的 http 链接。我应该如何在列表中获取这些链接。

最佳答案

您需要递归地执行此操作...在 DOM 对象中找到一个框架标签/元素,是时候获取其“src”属性的 DOM 了,继续执行此操作,将您在后续获取中找到的所有链接存储到大批。
您可以使用新线程来获取帧 DOM。只是为了让整个过程更快一点。

关于java - 获取页面的完整 html 源代码以制作网络爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33123674/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com