gpt4 book ai didi

java - 从 HTMLDocument 获取所有 html 作为字符串

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:46:05 31 4
gpt4 key购买 nike

我正在用 Java 编写代码..

有谁知道如何将 javax.swing.text.html.HTMLDocument 的内容作为字符串获取?这就是我到目前为止所得到的...

URL url = new URL( "http://www.test.com" );

HTMLEditorKit kit = new HTMLEditorKit();
HTMLDocument doc = (HTMLDocument) kit.createDefaultDocument();
doc.putProperty("IgnoreCharsetDirective", Boolean.TRUE);
Reader HTMLReader = new InputStreamReader(url.openConnection().getInputStream());
kit.read(HTMLReader, doc, 0);

我需要 HTMLDocument 的内容作为字符串。

示例:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">    <html><head><meta http-equiv="X-UA-Compatible" content="IE=Edge,chrome=1">

.......等

如有任何帮助,我们将不胜感激。我需要使用 HTMLDocument 类才能正确处理 html :)

谢谢丹尼尔

最佳答案

StringWriter writer = new StringWriter();
kit.write(writer, doc, 0, doc.getLength());
String s = writer.toString();

关于java - 从 HTMLDocument 获取所有 html 作为字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10472049/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com