gpt4 book ai didi

java - jsoup 到 w3c 文档 : INVALID_CHARACTER_ERR

转载 作者:行者123 更新时间:2023-11-30 08:38:32 25 4
gpt4 key购买 nike

我的用例:通过 jsoup 获取 html 页面并返回一个 w3c-DOM,以便通过 XML 转换进行进一步处理:

...
org.jsoup.nodes.Document document = connection.get();
org.w3c.dom.Document dom = new W3CDom().fromJsoup(document);
...

适用于大多数文档,但对于某些文档,它会抛出 INVALID_CHARACTER_ERR 而不会说明位置。

找到错误似乎非常困难。我更改了代码,首先将 url 导入一个字符串,然后通过正则表达式检查错误字符。但这对不良属性(例如,没有值(value))等没有帮助。

我目前的解决方案是通过在 jsoup 文档(head、img、script ...)中删除元素来最大限度地降低风险。

有没有更优雅的解决方案?

最佳答案

尝试将文档的 outputSettings 设置为“XML”:

document
.outputSettings()
.syntax(OutputSettings.Syntax.xml);

document
.outputSettings()
.charset("UTF-8");

这应确保生成的 XML 有效。

关于java - jsoup 到 w3c 文档 : INVALID_CHARACTER_ERR,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36504228/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com