gpt4 book ai didi

java - 如何从网页中提取所有文本?

转载 作者:太空宇宙 更新时间:2023-11-04 07:21:22 24 4
gpt4 key购买 nike

我正在使用 JSoup 库提取网页中的文本。以下是我的代码

 Document doc;

try {
URL url = new URL(text);


doc = Jsoup.parse(url, 70000);

Elements paragraphs = doc.select("p");
for(Element p : paragraphs)
{

textField.append(p.text());
textField.append("\n");
}
}
catch (Exception ex)
{

ex.printStackTrace();

}

在这里,我只能从“p”标签获取文本。但我需要页面中的所有文本。我该怎么做?这可能是通过循环节点来实现的,但我刚刚开始使用 JSoup

最佳答案

试试这个:

String text = Jsoup.parse(new URL("https://www.google.com"), 10000).text();
System.out.println(text);

这里10000的单位是毫秒,指的是超时。

关于java - 如何从网页中提取所有文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19267188/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com