java - 使用 jsoup 提取 `th` header 显示特定值的表

转载作者：行者123 更新时间：2023-11-30 03:49:52

26

4

当处理一堆困惑的嵌套表时，我们如何使用 jsoup 提取特定的一个表？

以下面的 HTML 为例，一堆表格。向下扫描后半部分，找到两个关键表，每个表都有第 th 单元格，显示 DOG 或 CAT。

有时我想要狗 table ，有时我想要猫 table 。可能有十几个(“鸟”、“老鼠”、“仓鼠”等)。猫 table 可能比狗 table 嵌套得更深。所以我不能使用任何关于“第一个”或“最后一个”的技巧。我必须查看第 th 单元格的值，然后获取直接包含的表。

以下jsoup代码给我两个元素:

 Elements elements = document.select( "table:has(tbody > tr > th  > b:containsOwn(CAT))" );

通过这一行，我得到两个元素而不是一个:

我想要的 table 。
包含我想要的表的外表。

此时，我的解决方法是检查长度，然后选择较短的长度。但一定有更好的方法。

HTML:

<!DOCTYPE html>
<html lang="en">
    <head>
        <meta charset="utf-8" />
        <title>title</title>
    </head>
    <body>
        <!-- page content -->
        <table>  <!--Outer table. Do not want this.-->
            <tbody>
                <tr>
                    <td>

                        <table>
                            <tbody>
                                <tr>
                                    <th><b>DOG</b></th> <!-- DOG in header -->
                                </tr>
                                <tr>
                                    <td>X</td>
                                    <td>7</td>
                                </tr>
                            </tbody>
                        </table>

                    </td>
                    <td>

                        <table> <!-- I want this table because it contains a header ("th") displaying the value "CAT". -->
                            <tbody>
                                <tr>
                                    <th><b>CAT</b></th>  <!-- CAT in header -->
                                </tr>
                                <tr>
                                    <td>A</td>
                                    <td>1</td>
                                </tr>
                            </tbody>
                        </table>

                    </td>
                </tr>
            </tbody>
        </table>
    </body>
</html>

<小时/>

我还尝试了以下带有 jsoup 版本 1.7.3 的 Java 应用程序。

package com.example.jsoupexperiment;

import java.io.InputStream;
import java.util.Scanner;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
 * PURPOSE To test parsing of nested tables using the "jsoup" library, as 
 * discussed on this StackOverflow.com question:
 * http://stackoverflow.com/q/24719049/642706
 * Titled: Extract a table whose `th` header displays a certain value, using jsoup
 */
public class ParseNestedTables
{
    public static void main( String[] args )
    {
        System.out.println( "Running main method of ParseNestedTables class." );
        InputStream stream = ParseNestedTables.class.getResourceAsStream( "/bogus.html" );
        Scanner scan = new Scanner( stream );
        StringBuilder sb = new StringBuilder();
        while ( scan.hasNextLine() ) {
            sb.append( scan.nextLine() + "\n" );
        }
        // System.out.println(sb.toString());
        Document document = Jsoup.parse( sb.toString() );
        Elements elements = document.select( "table:eq(0):has(th:contains(CAT))" );
        int countElements = elements.size(); // Hoping for 1, but getting 2.
        System.out.println( "Found " + countElements + " elements. Dumping… \n\n" );

        for ( Element element : elements ) {
            System.out.println( "Element…\n" + element.toString() + "\n\n" );
        }

    }
}

但它返回两个元素而不是一个:

包含所需表的外表。
所需的表格。

另一个问题是，虽然我不太明白eq selector的行为，如果它只是在层次结构中同一点上彼此相邻的兄弟元素中进行选择，那么即使它在此示例中有效，也不是正确的答案。在我的问题的实际应用程序中，这些表可以任意嵌套在任意数量的其他表中。其他表与页面布局相关，与我所需的表没有直接逻辑连接。

最佳答案

解决方法:查找目标值，向上提升层次结构

另一种解决方法。这不是一个真正的答案，因为它没有改进 jsoup 选择器。

我们通过第 th 标题单元格的值知道我们想要哪个表。因此找到该元素，然后向后工作。沿着元素层次结构(DOM 树)向上，经过 tr 和 tbody，直到到达 table。我们知道这是拥有第目标的直接表。我们避免使用外部嵌套表。

关键代码包括查找第个单元格:

Elements elements = document.select( "th > b:containsOwn(CAT)" );

...并循环查找每个父级:

Element element = elements.first();
while (  ! ( ( element == null ) || ( element.tagName().equalsIgnoreCase( "table" ) ) ) ) {
    element = element.parent();
}

完整的示例应用程序:

package com.example.jsoupexperiment;

import java.io.InputStream;
import java.util.Scanner;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class ParseNestedTables
{
    public static void main ( String[] args )
    {
        System.out.println( "Running main method of ParseNestedTables class." );
        InputStream stream = ParseNestedTables.class.getResourceAsStream( "/bogus.html" );
        Scanner scan = new Scanner( stream );
        StringBuilder sb = new StringBuilder();
        while ( scan.hasNextLine() ) {
            sb.append( scan.nextLine() + "\n" );
        }

        Document document = Jsoup.parse( sb.toString() );
        Elements elements = document.select( "th > b:containsOwn(CAT)" ); // Start by finding the desired table's target "th" element.
        int countElements = elements.size();
        switch ( countElements ) {
            case 0:
                System.out.println( "ERROR: Found no elements." );
                break;
            case 1:
                System.out.println( "GOOD: Found 1 element." );
                Element element = elements.first();

                // Loop up the hierarchy of elements (the DOM tree) until we find our desired "table" element or until we get a null.
                while (  ! ( ( element == null ) || ( element.tagName().equalsIgnoreCase( "table" ) ) ) ) {
                    element = element.parent();
                }

                System.out.println( "Found Element:\n" + element.toString() );
                break;
            default:
                System.out.println( "ERROR: Found multiple elements: " + countElements );
                break;
        }
    }
}

关于java - 使用 jsoup 提取 `th` header 显示特定值的表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24719049/

26

4

0

文章推荐： java - 在缓冲图像中查找具有容差的颜色

文章推荐： c++ - 如何选择图像旋转轴，Magick++？

文章推荐： android - 删除 EditText 和 TextView 之间的空白

文章推荐： android - 捕获从 Android 模拟器到本地主机的流量？

python - 为什么 Python 给出 ['th' 、 'th' 、 'th' 、 'th' 、 'th' ] 作为 '5 * [' th']' 的结果而不是五个列表？
在 Python 中，为什么这两个 5 * ['th'] 和 [5 * ' th'] 给出几乎相同的结果？这里的问题是为什么 5* ['th'] 给出的列表是五倍而不是五个列表。 >>>5 * ['t
javascript - 为 TH 伪元素添加点击事件，从 TH 获取数据属性并防止 TH 事件在点击时触发
我正在创建一个 HTML 表格，该表格当前有一个点击事件附加到列标题 TH 以对表格进行排序。我现在要做的是在您单击“某处”时通过显示额外的隐藏列来扩展列。现在，我对这个“某处”的最初想法是在每个具
algorithm - 如何证明堆: node i-th have 2 child are 2i-th and 2i+1-th?的子节点公式
很容易看出公式是正确的，但我不知道如何证明这一点。其他一些树怎么样:每个节点有 3 个 child ，4 个 child 的树......？谢谢! 最佳答案您必须证明，如果您按级别顺序遍历一棵完整的
jquery - 根据标签之间的单词隐藏表格列
我尝试使用下面的函数来隐藏基于第一个标签之间的单词的列以下是我到目前为止所拥有的但目前不起作用 $('#MenuContent_butUsers').click(function () { h
javascript - 将表格标题列 th 分成两个 th
我想让下面的输出看起来像图像中的一样，只将标题 th 分成两个 th 就像蓝线我需要两个用于单个 td 的 header ，请帮忙，谢谢。 table { font-family: aria
php - 如何使html表列根据mysql中选定的列动态更改
我有多个选择选项。但是，我希望当我选择 1 个或两个选项或其他选项时更改列动态生成html并从数据库获取数据目前我已经创建了多重选择选项和 html 表格
jquery - 查找标题为子 TH 的表行的所有 TH
我有一个表，它有一个表头，它有如下子表头: table, th, td { border: 1px solid black; } Fisrt Name Last Na
java - thymeleaf th :each filtered with th:if
我需要迭代并创建每个 component 的元素在components具有 name 的数组的 'MATERIAL' 我的代码如下此代码在生成一组空之前一切正常元素如果
thymeleaf - th :text and th:value in Thymeleaf之间的区别
我最近才开始在我的一个项目中使用 Thymeleaf。我见过一些在某些地方使用 th:text=${example} 的示例 th:value=${example}。我已经浏览了 Thymeleaf
java - Thymeleaf "th:each"忽略 "th:switch"？
首先，我检查从中获取轨道列表的项目是否是 CD。如果这是真的，我想循环列表并为每个条目创建一个段落。我的问题是，对于非 CD 的项目，我会在 ${item.getTrackList()} 处收到错误，
javascript - 如何在没有文本嵌套在 TH 的子节点中的情况下将文本嵌套到 TH 中？
我解析一些站点并获取 TH 元素实例，然后我使用 innerText 获取所需的文本，当有一些我不需要的额外垃圾文本时，问题就来了。无论如何我只能获得顶级文本吗？ var th_elem = /*so
javascript - jQuery 查找不为空且具有特定类名
我有一个脚本可以将表解析为 json。这样的效果很好 Name Value 与脚本逻辑: var headers = []; $(rows.s
html - 在元素中添加元素
我有一个 html 表格，其中一个标题跨越 2 列。如何向两列中的每一列添加子标题？例如在附图中，我希望“联系人”列的各个列具有子标题“电话”和“地址”。最佳答案如果你在纸上画出表格，你会采用同
java - thymeleaf - 组合 th :each with th:href
我是 Thymeleaf(和 webdev)的新手，我正在尝试将 Thymeleaf 迭代 (th:each) 与 URL 重写 (th:href) 结合起来。 hello 这会产生以下结果(其中
thymeleaf: th:value 在使用 th:field 时被忽略
我有一个表单，我想在其中编辑一些用户数据。所以已经存储的数据被放置为 th:value 并且在发送后我使用 spring 验证进行验证并希望在错误输入时返回表单。我希望输入字段具有用户输入的值，但它
javascript - 如何对下的下拉列表使用默认 "Select"选项？
我正在使用一个位于“th”标签下的下拉框。我正在使用以下代码。 Element_Name 我动态调用我的下拉元素。我想在列表顶部显示“选择”作为我的默认元素。我已尝试使用以下代码。但这并没有奏效。
html - Thymeleaf 使用 th :if within a th:block
我是 thymeleaf 的新手，我正在尝试创建一个 html 表，其中一个 boolean 值决定文本在某些列中是通过还是失败。 SmokeTest.passOrFailArray 是一个 bool
html - Thymeleaf 使用 th :if within a th:block
我是 thymeleaf 的新手，我正在尝试创建一个 html 表，其中一个 boolean 值决定文本在某些列中是通过还是失败。 SmokeTest.passOrFailArray 是一个 bool
javascript - 如何使用 Jquery 将 th 动态添加到现有的 th
我如何使用 Jquery 动态地为 th 添加值。我希望在 Heading7 之后将值附加到 Heading8 和 Heading9 Heading1 He
javascript - 带有 TH onclick 的下拉菜单触发 TH click，而不是下拉菜单
我正在尝试创建一个包含可排序行的表格 - 但其中一行也需要一个下拉列表。问题是，当单击下拉菜单时 - 表头的单击事件正在触发，导致不应该发生的事情发生。我发现了这个: http://www.vel

首页

博学

6Ren·AI

商城

java - 使用 jsoup 提取 `th` header 显示特定值的表

解决方法:查找目标值，向上提升层次结构

完整的示例应用程序: