gpt4 book ai didi

java - 如何将 Jsoup 文档保存到 HTML 文件?

转载 作者:太空狗 更新时间:2023-10-29 22:39:54 24 4
gpt4 key购买 nike

我已使用此方法将网页检索到 org.jsoup.nodes.Document 对象中:

myDoc = Jsoup.connect(myURL).ignoreContentType(true).get();

我应该如何将此对象写入 HTML 文件?myDoc.html()myDoc.text()myDoc.toString() 方法不会输出文档的所有元素。

javascript 元素中的一些信息可能会在解析时丢失。例如,Instagram 媒体页面源中的“时间戳”。

最佳答案

使用 doc.outerHtml()

import org.apache.commons.io.FileUtils;

public void downloadPage() throws Exception {
final Response response = Jsoup.connect("http://www.example.net").execute();
final Document doc = response.parse();

final File f = new File("filename.html");
FileUtils.writeStringToFile(f, doc.outerHtml(), StandardCharsets.UTF_8);
}

不要忘记捕获异常。添加依赖项或下载 Apache commons-io 库,以便轻松快捷地以 UTF-8 格式保存文件。

关于java - 如何将 Jsoup 文档保存到 HTML 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24696766/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com