gpt4 book ai didi

java - 使用 cyberneko 解析 html 以查找 'div' -标签

转载 作者:太空宇宙 更新时间:2023-11-04 08:57:13 25 4
gpt4 key购买 nike

我需要来自 html 站点的一个特定“div”标签(由“id”标识)。解析页面我正在使用赛博内科。

    def doc = new XmlParser( new org.cyberneko.html.parsers.SAXParser() ).parse(htmlFile)
divTag = doc.depthFirst().DIV.find{ it['@id'] == tagId }

到目前为止没问题,但最后我不需要XML,而是整个“div”标签的原始内容。不幸的是我不知道如何做到这一点......

最佳答案

编辑:回复第一条评论。

这有效:

def html = """
<body>
<div id="breadcrumbs">
<b>
crumb1
</b>
</div>
</body>
"""

def doc = new XmlSlurper(new org.cyberneko.html.parsers.SAXParser()).parseText(html)
divTag = doc.BODY.DIV.find { it.@id == 'breadcrumbs' }
println "" << new groovy.xml.StreamingMarkupBuilder().bind {xml -> xml.mkp.yield divTag}

看起来 cyberneko 将返回一个格式良好的 HTML 文档,无论原始标记是否正确。即,doc 的根将是一个 HTML 元素,并且还将有一个 HEAD 元素。整洁。

关于java - 使用 cyberneko 解析 html 以查找 'div' -标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1974634/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com