gpt4 book ai didi

html - 将 HTML 表格解析为 Groovy 列表?

转载 作者:行者123 更新时间:2023-12-04 16:47:48 26 4
gpt4 key购买 nike

我想解析 HTML 页面并获取表格值。例如解析它以获得字典列表。每个列表元素都是一个字典,对应于表中的一行。

假设表格是:

表格

<table style="width:100%">
<tr>
<td>Jill</td>
<td>Smith</td>
<td>50</td>
</tr>
<tr>
<td>Eve</td>
<td>Jackson</td>
<td>94</td>
</tr>
</table>

结果

[Jill,  Smith,  50]
[Eve, Jackson, 94]

我通过两种方式实现这一目标:

  1. 使用 Xpath:

    page.body.div.table.tr.time;
  2. 像这样使用闭包:

    page."**".findAll { it.@class.toString().contains("time")}.each {

两种方式都使用 XMLSlurper:

@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2')
def parser = new XmlSlurper(new org.ccil.cowan.tagsoup.Parser())

那么有没有另一种使用 groovy 获取表值的方法

感谢您的帮助!

最佳答案

我使用 jsoup 取得了不错的效果HTML 解析器。它是一个 Java 库,但可以很好地与 Groovy 配合使用。这是 parsing a table in Java 的示例, 和一个有用的 blog entry关于使用 Groovy 和 jsoup 进行抓取。这question有一个关于解析表的常规示例的答案。

关于html - 将 HTML 表格解析为 Groovy 列表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37101705/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com