- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
当处理一堆困惑的嵌套表时,我们如何使用 jsoup 提取特定的一个表?
以下面的 HTML 为例,一堆表格。向下扫描后半部分,找到两个关键表,每个表都有第 th
单元格,显示 DOG
或 CAT
。
有时我想要狗 table ,有时我想要猫 table 。可能有十几个(“鸟”、“老鼠”、“仓鼠”等)。猫 table 可能比狗 table 嵌套得更深。所以我不能使用任何关于“第一个”或“最后一个”的技巧。我必须查看第 th
单元格的值,然后获取直接包含的表。
以下jsoup代码给我两个元素:
Elements elements = document.select( "table:has(tbody > tr > th > b:containsOwn(CAT))" );
通过这一行,我得到两个元素而不是一个:
此时,我的解决方法是检查长度,然后选择较短的长度。但一定有更好的方法。
HTML:
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="utf-8" />
<title>title</title>
</head>
<body>
<!-- page content -->
<table> <!--Outer table. Do not want this.-->
<tbody>
<tr>
<td>
<table>
<tbody>
<tr>
<th><b>DOG</b></th> <!-- DOG in header -->
</tr>
<tr>
<td>X</td>
<td>7</td>
</tr>
</tbody>
</table>
</td>
<td>
<table> <!-- I want this table because it contains a header ("th") displaying the value "CAT". -->
<tbody>
<tr>
<th><b>CAT</b></th> <!-- CAT in header -->
</tr>
<tr>
<td>A</td>
<td>1</td>
</tr>
</tbody>
</table>
</td>
</tr>
</tbody>
</table>
</body>
</html>
<小时/>
我还尝试了以下带有 jsoup 版本 1.7.3 的 Java 应用程序。
package com.example.jsoupexperiment;
import java.io.InputStream;
import java.util.Scanner;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
* PURPOSE To test parsing of nested tables using the "jsoup" library, as
* discussed on this StackOverflow.com question:
* http://stackoverflow.com/q/24719049/642706
* Titled: Extract a table whose `th` header displays a certain value, using jsoup
*/
public class ParseNestedTables
{
public static void main( String[] args )
{
System.out.println( "Running main method of ParseNestedTables class." );
InputStream stream = ParseNestedTables.class.getResourceAsStream( "/bogus.html" );
Scanner scan = new Scanner( stream );
StringBuilder sb = new StringBuilder();
while ( scan.hasNextLine() ) {
sb.append( scan.nextLine() + "\n" );
}
// System.out.println(sb.toString());
Document document = Jsoup.parse( sb.toString() );
Elements elements = document.select( "table:eq(0):has(th:contains(CAT))" );
int countElements = elements.size(); // Hoping for 1, but getting 2.
System.out.println( "Found " + countElements + " elements. Dumping… \n\n" );
for ( Element element : elements ) {
System.out.println( "Element…\n" + element.toString() + "\n\n" );
}
}
}
但它返回两个元素而不是一个:
另一个问题是,虽然我不太明白eq
selector的行为,如果它只是在层次结构中同一点上彼此相邻的兄弟元素中进行选择,那么即使它在此示例中有效,也不是正确的答案。在我的问题的实际应用程序中,这些表可以任意嵌套在任意数量的其他表中。其他表与页面布局相关,与我所需的表没有直接逻辑连接。
最佳答案
另一种解决方法。这不是一个真正的答案,因为它没有改进 jsoup 选择器。
我们通过第 th
标题单元格的值知道我们想要哪个表。因此找到该元素,然后向后工作。沿着元素层次结构(DOM 树)向上,经过 tr
和 tbody
,直到到达 table
。我们知道这是拥有第目标
的直接表。我们避免使用外部嵌套表。
关键代码包括查找第个单元格:
Elements elements = document.select( "th > b:containsOwn(CAT)" );
...并循环查找每个父级:
Element element = elements.first();
while ( ! ( ( element == null ) || ( element.tagName().equalsIgnoreCase( "table" ) ) ) ) {
element = element.parent();
}
package com.example.jsoupexperiment;
import java.io.InputStream;
import java.util.Scanner;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class ParseNestedTables
{
public static void main ( String[] args )
{
System.out.println( "Running main method of ParseNestedTables class." );
InputStream stream = ParseNestedTables.class.getResourceAsStream( "/bogus.html" );
Scanner scan = new Scanner( stream );
StringBuilder sb = new StringBuilder();
while ( scan.hasNextLine() ) {
sb.append( scan.nextLine() + "\n" );
}
Document document = Jsoup.parse( sb.toString() );
Elements elements = document.select( "th > b:containsOwn(CAT)" ); // Start by finding the desired table's target "th" element.
int countElements = elements.size();
switch ( countElements ) {
case 0:
System.out.println( "ERROR: Found no elements." );
break;
case 1:
System.out.println( "GOOD: Found 1 element." );
Element element = elements.first();
// Loop up the hierarchy of elements (the DOM tree) until we find our desired "table" element or until we get a null.
while ( ! ( ( element == null ) || ( element.tagName().equalsIgnoreCase( "table" ) ) ) ) {
element = element.parent();
}
System.out.println( "Found Element:\n" + element.toString() );
break;
default:
System.out.println( "ERROR: Found multiple elements: " + countElements );
break;
}
}
}
关于java - 使用 jsoup 提取 `th` header 显示特定值的表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24719049/
在 Python 中,为什么这两个 5 * ['th'] 和 [5 * ' th'] 给出几乎相同的结果?这里的问题是为什么 5* ['th'] 给出的列表是五倍而不是五个列表。 >>>5 * ['t
我正在创建一个 HTML 表格,该表格当前有一个点击事件附加到列标题 TH 以对表格进行排序。 我现在要做的是在您单击“某处”时通过显示额外的隐藏列来扩展列。现在,我对这个“某处”的最初想法是在每个具
很容易看出公式是正确的,但我不知道如何证明这一点。其他一些树怎么样:每个节点有 3 个 child ,4 个 child 的树......?谢谢! 最佳答案 您必须证明,如果您按级别顺序遍历一棵完整的
我尝试使用下面的函数来隐藏基于第一个标签之间的单词的列以下是我到目前为止所拥有的但目前不起作用 $('#MenuContent_butUsers').click(function () { h
我想让下面的输出看起来像图像中的一样,只将标题 th 分成两个 th 就像蓝线我需要两个用于单个 td 的 header ,请帮忙,谢谢。 table { font-family: aria
我有多个选择选项。但是,我希望当我选择 1 个或两个选项或其他选项时更改列 动态生成html并从数据库获取数据 目前我已经创建了多重选择选项和 html 表格
我有一个表,它有一个表头,它有如下子表头: table, th, td { border: 1px solid black; } Fisrt Name Last Na
我需要迭代并创建 每个 component 的元素在components具有 name 的数组的 'MATERIAL' 我的代码如下 此代码在生成一组空 之前一切正常元素如果
我最近才开始在我的一个项目中使用 Thymeleaf。我见过一些在某些地方使用 th:text=${example} 的示例 th:value=${example}。 我已经浏览了 Thymeleaf
首先,我检查从中获取轨道列表的项目是否是 CD。如果这是真的,我想循环列表并为每个条目创建一个段落。我的问题是,对于非 CD 的项目,我会在 ${item.getTrackList()} 处收到错误,
我解析一些站点并获取 TH 元素实例,然后我使用 innerText 获取所需的文本,当有一些我不需要的额外垃圾文本时,问题就来了。无论如何我只能获得顶级文本吗? var th_elem = /*so
我有一个脚本可以将表解析为 json。 这样的效果很好 Name Value 与脚本逻辑: var headers = []; $(rows.s
我有一个 html 表格,其中一个标题跨越 2 列。如何向两列中的每一列添加子标题? 例如在附图中,我希望“联系人”列的各个列具有子标题“电话”和“地址”。 最佳答案 如果你在纸上画出表格,你会采用同
我是 Thymeleaf(和 webdev)的新手,我正在尝试将 Thymeleaf 迭代 (th:each) 与 URL 重写 (th:href) 结合起来。 hello 这会产生以下结果(其中
我有一个表单,我想在其中编辑一些用户数据。 所以已经存储的数据被放置为 th:value 并且在发送后我使用 spring 验证进行验证并希望在错误输入时返回表单。我希望输入字段具有用户输入的值,但它
我正在使用一个位于“th”标签下的下拉框。我正在使用以下代码。 Element_Name 我动态调用我的下拉元素。 我想在列表顶部显示“选择”作为我的默认元素。我已尝试使用以下代码。但这并没有奏效。
我是 thymeleaf 的新手,我正在尝试创建一个 html 表,其中一个 boolean 值决定文本在某些列中是通过还是失败。 SmokeTest.passOrFailArray 是一个 bool
我是 thymeleaf 的新手,我正在尝试创建一个 html 表,其中一个 boolean 值决定文本在某些列中是通过还是失败。 SmokeTest.passOrFailArray 是一个 bool
我如何使用 Jquery 动态地为 th 添加值。我希望在 Heading7 之后将值附加到 Heading8 和 Heading9 Heading1 He
我正在尝试创建一个包含可排序行的表格 - 但其中一行也需要一个下拉列表。 问题是,当单击下拉菜单时 - 表头的单击事件正在触发,导致不应该发生的事情发生。 我发现了这个: http://www.vel
我是一名优秀的程序员,十分优秀!