gpt4 book ai didi

java - JSoup 核心网页文本提取

转载 作者:行者123 更新时间:2023-12-01 04:37:00 25 4
gpt4 key购买 nike

我是 JSoup 的新手,如果我的问题太琐碎,抱歉。我正在尝试从 http://www.nytimes.com/ 中提取文章文本但在打印解析文档时我在解析的输出中看不到任何文章

public class App 
{

public static void main( String[] args )
{
String url = "http://www.nytimes.com/";
Document document;
try {
document = Jsoup.connect(url).get();

System.out.println(document.html()); // Articles not getting printed
//System.out.println(document.toString()); // Same here
String title = document.title();
System.out.println("title : " + title); // Title is fine

} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

}

好吧,我尝试解析“http://en.wikipedia.org/wiki/Big_data”来检索wiki数据,这里也有同样的问题,我没有在输出中获取wiki数据。任何帮助或提示将不胜感激。

谢谢。

最佳答案

以下是获取所有 <p class="summary> 的方法文本:

final String url = "http://www.nytimes.com/";
Document doc = Jsoup.connect(url).get();

for( Element element : doc.select("p.summary") )
{
if( element.hasText() ) // Skip those tags without text
{
System.out.println(element.text());
}
}

如果您需要全部 <p>标签,无需任何过滤,可以使用doc.select("p")反而。但在大多数情况下,最好只选择您需要的那些(请参阅 here 以获取 Jsoup 选择器文档)。

关于java - JSoup 核心网页文本提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17194499/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com