html - 使用 XmlSlurper : How to select sub-elements while iterating over a GPathResult-6ren

html - 使用 XmlSlurper : How to select sub-elements while iterating over a GPathResult

转载作者：太空狗更新时间：2023-10-29 13:43:18

我正在编写一个 HTML 解析器，它使用 TagSoup 将格式良好的结构传递给 XMLSlurper。

这是通用代码:

def htmlText = """
<html>
<body>
<div id="divId" class="divclass">
<h2>Heading 2</h2>
<ol>
<li><h3><a class="box" href="#href1">href1 link text</a> <span>extra stuff</span></h3><address>Here is the address<span>Telephone number: <strong>telephone</strong></span></address></li>
<li><h3><a class="box" href="#href2">href2 link text</a> <span>extra stuff</span></h3><address>Here is another address<span>Another telephone: <strong>0845 1111111</strong></span></address></li>
</ol>
</div>
</body>
</html>
"""     

def html = new XmlSlurper(new org.ccil.cowan.tagsoup.Parser()).parseText( htmlText );

html.'**'.grep { it.@class == 'divclass' }.ol.li.each { linkItem ->
    def link = linkItem.h3.a.@href
    def address = linkItem.address.text()
    println "$link: $address\n"
}

我希望 each 让我依次选择每个“li”，这样我就可以检索相应的 href 和地址详细信息。相反，我得到了这个输出:

#href1#href2: Here is the addressTelephone number: telephoneHere is another addressAnother telephone: 0845 1111111

我已经检查了网络上的各种示例，这些示例要么处理 XML，要么是单行示例，如“从该文件中检索所有链接”。 it.h3.a.@href 表达式似乎正在收集文本中的所有 href，即使我将它传递给父“li”节点的引用也是如此。

你能告诉我吗:

为什么我得到显示的输出
如何检索每个“li”项的 href/地址对

谢谢。

最佳答案

用查找替换grep:

html.'**'.find { it.@class == 'divclass' }.ol.li.each { linkItem ->
    def link = linkItem.h3.a.@href
    def address = linkItem.address.text()
    println "$link: $address\n"
}

然后你会得到

#href1: Here is the addressTelephone number: telephone

#href2: Here is another addressAnother telephone: 0845 1111111

grep 返回一个 ArrayList 但 find 返回一个 NodeChild 类:

println html.'**'.grep { it.@class == 'divclass' }.getClass()
println html.'**'.find { it.@class == 'divclass' }.getClass()

结果:

class java.util.ArrayList
class groovy.util.slurpersupport.NodeChild

因此，如果你想使用 grep，你可以像这样嵌套另一个 each 以使其工作

html.'**'.grep { it.@class == 'divclass' }.ol.li.each {
    it.each { linkItem ->
        def link = linkItem.h3.a.@href
        def address = linkItem.address.text()
        println "$link: $address\n"
    }
}

长话短说，在您的情况下，请使用 find 而不是 grep。

关于html - 使用 XmlSlurper : How to select sub-elements while iterating over a GPathResult，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1675542/

文章推荐： iphone - 用于在 iPhone 上缓存网页的库？

文章推荐： java - 如何在不同的 Android 项目中引用 adk 资源？

文章推荐： android - 在 Android 中将多个纹理映射到立方体的面

文章推荐： git "pre-branch" Hook 可能吗？

rust - 预期的std::iter::Iterator，但找到了std::iter::Iterator
我正在尝试表达以下内容: 给定一个矩阵和两个索引增量，返回矩阵中所有数字的四倍体:沿行，列或对角线的四倍体。 use std::iter::Iterator; use std::iter::Peeka
iterator - 使用 Iterable 和 Iterator 角色实现可迭代类
假设我们有以下类组成角色 Iterable : class Word-Char does Iterable { has @.words; method !pairize($item)
java - 使用来自不同 Iterator/Iterable 的值创建 Iterable
我编写了一个 ADT 排序二叉树，其功能如下: public Iterator getInorderIterator(){ return new InorderIterator(); } 有效
python - "yield from iterable"与 "return iter(iterable)"
在包装(内部)迭代器时，通常必须将 __iter__ 方法重新路由到底层可迭代对象。考虑以下示例: class FancyNewClass(collections.Iterable): def
ios - NSSet Iteration 比 NSMutableArray Iteration 消耗更多时间，NSArray Iteration 比 NSMutableArray Iteration 消耗更多时间
尽管如此，我遍历了以下 NSSet , NSMutableArray , NSFastEnumeration文档，我找不到下面提到的场景的令人满意的来源: 此处，NSMutableArray、NSAr
python - collections.Iterable vs typing.Iterable 在类型注释和检查 Iterable
我发现在 Python 中 collections.Iterable 和 typing.Iterable 都可以用于类型注释和检查对象是否可迭代，即 >isinstance(obj, collecti
rust - 将 Iterator<(A,B)> 拆分为 Iterator 和 Iterator
我想拆分实现 Iterator 的对象的输出分为两个实现 Iterator 的对象和 Iterator .由于其中一个输出的迭代次数可能比另一个多，因此我需要缓冲 Iterator 的输出。 (因为我

rust - 无法将 core::slice::Iter 解析为 core::iter::Iterator？
我正在尝试用 Rust 编写一个简单的迭代器: #[derive(Debug)] pub struct StackVec { storage: &'a mut [T], len: us

swift - : Separator. Iterator.Element == Self.Iterator.Element.Iterator.Element 是什么意思
什么意思: Separator.Iterator.Element == Self.Iterator.Element.Iterator.Element 在this (Swift 标准库)swift 实例

java - Iterable#iterator() 返回一个新的迭代器还是一个现有的迭代器？
调用 anIterable.iterator() 会返回新的迭代器还是现有的迭代器？它依赖于 Iterable 的实现吗？更具体地说，以下代码是否按预期工作(即内部循环将从头开始迭代)？ for (

iterator - Iterator collect 的类型问题
我正在尝试转换 &str 的矢量对成一个 HashMap使用以下代码片段: use std::collections::HashMap; fn main() { let pairs = vec!(

iterator - 是否有类似 Iterator 的特征返回在下一次访问之前必须超出范围的引用？
这将使安全地迭代同一元素两次成为可能，或者为在项目类型中迭代的全局事物保持某种状态。类似于: trait IterShort where Self: Borrow, { type I

iterator - 为什么 Iterator::all 需要迭代器是可变的？
我在 String 的字符上使用迭代器: pub fn is_yelling(message: &str) -> bool { let letters = message.chars().fi

iterator - 是否有类似 Iterator 的特征返回在下一次访问之前必须超出范围的引用？
这将使安全地迭代同一元素两次成为可能，或者为在项目类型中迭代的全局事物保持某种状态。类似于: trait IterShort where Self: Borrow, { type I

iterator - 为什么我们不实现 Iterator 中的所有函数来实现一个迭代器呢？
要在 Rust 中实现迭代器，我们只需要实现 next 方法，如 in the documentation 所解释的那样.但是，Iterator 特征 has many more methods .

iterator - 实现 Iterator 时的生命周期问题
我正在为多个结构实现 Iterator 特性并遇到了一些问题。为什么为 Rows 实现 Iterator 显示错误？这是一个链接:link to playground 基本上为什么这不起作用？ str

iterator - 遍历集合。 Iterator 被删除后立即删除它
我将集合转储到磁盘上。当请求时，应该检索这些集合(没问题)和 iterator应该为它构建返回对检索到的值的引用。 iterator之后被丢弃了，我不再需要收藏了。我也希望它被删除。到目前为止我尝试

iterator - 如何为特征实现 "default iterator"？
我正在尝试为实现特征的结构实现默认迭代器。我的特征称为 DataRow，代表一行表格单元格，如下所示: pub trait DataRow { // Gets a cell by index

iterator - 是否有提供 `iter()` 的特征？
Rust 中是否有提供 iter() 的 Trait方法？我只找到了特征 IntoIterator ，供应into_iter() . 这里要明确一点:我不想要 Iterator特性，提供 next()

iterator - 如何向 Iterator 添加新方法？
我想在迭代器上定义一个 .unique() 方法，使我能够在没有重复的情况下进行迭代。 use std::collections::HashSet; struct UniqueState {

太空狗

个人简介
我是一名优秀的程序员,十分优秀！

作者热门文章

c - 在位数组中找到第一个零

linux - Unix 显示有关匹配两种模式之一的文件的信息

正则表达式替换多个文件

linux - 隐藏来自 xtrace 的命令

滴滴打车优惠券免费领取

全站热门文章

springboot将文件处理成压缩文件

DDCA——内存架构和子系统&内存控制器

鸿蒙NEXT开发案例：光强仪

（系列十一）Vue3框架中路由守卫及请求拦截（实现前后端交互）

SpringAI+ollama本地搭建聊天AI

.NET各版本贡献者列表

『玩转Streamlit』--数据展示组件

cmu15545-数据访问方式：B+树（B+Tree）

实战：Mailivery模拟登录

.NET9使用Scalar替代Swagger

首页

博学

6Ren·AI

商城

html - 使用 XmlSlurper : How to select sub-elements while iterating over a GPathResult