gpt4 book ai didi

java - 让 Jsoup 只加载所需的资源?

转载 作者:行者123 更新时间:2023-11-30 06:13:52 25 4
gpt4 key购买 nike

我想加载网站代码以进行抓取。

该网站充满了不相关的图片和不同网站(如 Facebook)的各种连接。这显然会增加加载时间。

我真的很想只阅读页面内容,而不包含所有其他不必要的内容。有没有办法禁用外部资源加载?

我可以提供代码,但它只是一行,其中包含 Jsoup.connect (出于明显的原因)。

最佳答案

在使用 Jsoup 加载页面之前,您无法过滤(删除)页面的某些部分。
Jsoup 将仅加载 HTML,因此不会加载图片或 Javascript。在加载页面之前,您可以验证是否获得了正确的内容 - 许多网站包含多个 HTML 文件,因此请打开浏览器的开发人员工具,转到该网站,查看获得该网站时获得的文件,并检查每个文件他们来决定您是否需要它。
这是我浏览到 SO 时得到的结果:

SO traffic正如您所看到的 - 它有 14 个文件,但很容易确定哪一个是 HTML,然后查看它是否有任何有趣的内容。

关于java - 让 Jsoup 只加载所需的资源?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49659144/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com