gpt4 book ai didi

java - 特定 div 的页面抓取

转载 作者:行者123 更新时间:2023-11-30 04:48:11 25 4
gpt4 key购买 nike

我想知道是否有一种方法可以使用 Java 读取给定网页的 html 输出?

我知道在 php 中你可以做类似的事情:

$handle = @fopen("'http://www.google.com", "r");
$source_code = fread($handle,9000);

我正在寻找 Java 等效项。

此外,一旦我有了渲染的 html,是否有任何 Java 实用程序可以让我通过 id 删除单个 div?

感谢您对此提供的任何帮助。

最佳答案

使用jsoup .

您可以选择树模型和类似于 CSS 或 jQuery 选择器的强大查询语法,以及快速获取网页源的实用方法。

引用他们的网站:

Fetch the Wikipedia homepage, parse it to a DOM, and select the headlines from the In the news section into a list of Elements:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

找到代表要删除的 divElement 后,只需调用 remove()就在上面。

关于java - 特定 div 的页面抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10435687/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com