gpt4 book ai didi

java - Jsoup - 提取提取的 URL 的环绕段落

转载 作者:太空宇宙 更新时间:2023-11-04 14:27:02 25 4
gpt4 key购买 nike

对于每个超链接,我必须提取每个 URL 的实际超链接、 anchor 文本和周围段落(不包括所有标签)。

我可以使用 jsoup 轻松提取链接数据,但无法提取包含超链接的段落。我尝试了以下操作:

Elements links = doc.select("a[href]");

for (Element link : links) {
// get the value from href attribute
System.out.println("\nlink : " + link.attr("abs:href"));
System.out.println("text : " + link.text());
System.out.println("Surr : " + link.select("p").text()); -- not work
}

有人知道如何实现这个目标吗?

最佳答案

如果您对嵌套在段落中的链接感兴趣,可以使用此选择器:

Elements paragraphs = document.select("p:has(a[href])")

然后,当您迭代这些段落元素时,您可以通过以下方式提取嵌套的 a 元素:

for (Element paragraph : paragraphs) {
System.out.println(paragraph.select("a[href]"));
}

在这种情况下,您可以访问嵌套的 a 元素及其周围的段落。

我创建了一个简单的要点,您可以轻松下载并运行 - https://gist.github.com/wololock/ffd9ef32f7abe3f325b0

关于java - Jsoup - 提取提取的 URL 的环绕段落,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26564594/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com