gpt4 book ai didi

html - 使用 XmlSlurper 时如何查找有问题的行

转载 作者:行者123 更新时间:2023-11-28 03:43:30 28 4
gpt4 key购买 nike

我正在使用 XmlSlurper 解析一个脏的 html 页面,我收到以下错误:

ERROR org.xml.sax.SAXParseException: Element type "scr" must be followed by either attribute specifications, ">" or "/>".
at org.apache.xerces.parsers.AbstractSAXParser.parse(Unknown Source)
at org.apache.xerces.jaxp.SAXParserImpl$JAXPSAXParser.parse(Unknown Source)
...
[Fatal Error] :1157:22: Element type "scr" must be followed by either attribute specifications, ">" or "/>".

现在,我有 html,我在执行此操作之前将其提供并打印出来。如果我打开它并尝试转到错误 1157 中提到的行,那里没有“src”(但文件中有数百个这样的字符串)。所以我想插入了一些额外的东西(可能是 <script> 或类似的东西)来改变行号。

有没有一种好方法可以准确找到有问题的行或 html 片段?

最佳答案

您使用的是哪个 SAXParser? HTML 不是严格的 XML,因此将 XMLSlurper 与默认解析器一起使用可能会导致持续的错误。

在谷歌上粗略地搜索“Groovy html slurper”,我找到了 HTML Scraping With Groovy它指向名为 TagSoup 的 SaxParser .

试一试,看看它是否解析了脏页。

关于html - 使用 XmlSlurper 时如何查找有问题的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8735524/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com