gpt4 book ai didi

java - 使用 JSoup 返回来自特定 div 的链接中的所有文本

转载 作者:行者123 更新时间:2023-11-28 03:47:01 25 4
gpt4 key购买 nike

我正在使用 JSoup 来解析特定 div 中的链接列表。我可以使用 #div>a cssQuery 语法很好地获取链接。但是我无法从里面获取文本:

private static Elements getLinkList(String URL) throws IOException {
/* Download HTML page */
URL website = new URL(URL);
ReadableByteChannel readableByteChannel = Channels.newChannel(website.openStream());
FileOutputStream fileOutputStream = new FileOutputStream(HTML_DOC);
fileOutputStream.getChannel().transferFrom(readableByteChannel, 0, Long.MAX_VALUE);

/* Collect list of links */
File input = new File(HTML_DOC);
Document document = Jsoup.parse(input, "UTF-8", URL);

return document.select("#div>a");
}

我试图从标签中获取文本,但它是空白的。

<div id="div">
<a href="http://www.sample.com/doc.doc" target="_blank">Installation guideline - Citrix XenApp 7.6 for PAS-X.doc<br></a>
</div>

最佳答案

答案不需要对我在 OP 中发布的代码进行代码更改:

private static Elements getLinkList(String URL) throws IOException {
/* Download HTML page */
URL website = new URL(URL);
ReadableByteChannel readableByteChannel = Channels.newChannel(website.openStream());
FileOutputStream fileOutputStream = new FileOutputStream(HTML_DOC);
fileOutputStream.getChannel().transferFrom(readableByteChannel, 0, Long.MAX_VALUE);

/* Collect list of links */
File input = new File(HTML_DOC);
Document document = Jsoup.parse(input, "UTF-8", URL);

return document.select("#div>a");
}

但是在处理数据时,从链接 Element 本身检索文本,即 String titleText = link.text(),并完成:

Elements links = getLinkList(URL); // Retrieve list of Elements from above method

for (Element link: links) {
String linkText = link.toString();
String titleText = link.text();
String formattedLink = org.apache.commons.lang3.StringUtils.substringBetween(linkText, "<a href=\"", "\"");

System.out.println(titleText);
System.out.println(formattedLink);
}

关于java - 使用 JSoup 返回来自特定 div 的链接中的所有文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43918321/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com