gpt4 book ai didi

java - 用JSOUP解析HTML文档,无法选择表格节点?

转载 作者:行者123 更新时间:2023-11-29 05:50:22 26 4
gpt4 key购买 nike

我已经研究过几个具有类似问题的 Stack Overflow 主题。

我有以下问题:我有一个简单的 html 页面,下载并在本地保存为 .html 文件,我正在用 JSoup 解析它以读取该表的内容。不幸的是,当我使用 .select("table") 查找我的表格时,它没有返回任何元素。因此我调试了它,我注意到的是......我的主体节点有一个子节点,它似乎只是一个字符串,因此我假设我找不到任何表节点?

有人能帮帮我吗?

这是我的代码片段:

   for (Element table : doc.select("table.creditsuisse")) {
for (Element row : table.select("tr")) {
for (Element tds : row.select("td")){
for(Element link : row.select("href")){
System.out.println(link.text());
}
System.out.println(tds.text());
}
}
}

这是我的输入文件的样子:

<html>
<head>
</head>
<body>
<table class="creditsuisse" width="100%" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<th>Name</th>
<th style="width:170px;">Funktion</th>
<th style="width:180px;">
Amtsdauer (Seit) </th>
<th style="width:130px;">Alter (Geburtsdatum)</th>
<th style="width:45px;">Neuigkeit</th>
</tr>
<tr>

<td>
<a onclick="document.location='/u/p/al_thani_jassim_hamad_j_j-9293792/credit_suisse_ag_CH-020.3.923.549-1.htm'" href="/u/p/al_thani_jassim_hamad_j_j-9293792/credit_suisse_ag_CH-020.3.923.549-1.htm">Al-Thani Jassim Hamad J.J.</a> *&nbsp;<br>

</td>

<td>
VR-Mitglied
</td>
<td><a onclick="document.location='http://www.moneyhouse.ch/u/pub/credit_suisse_ag_CH-020.3.923.549-1.htm#28.06.2010'" href="/u/pub/credit_suisse_ag_CH-020.3.923.549-1.htm#28.06.2010">2 Jahre (28.06.2010)</a></td>
<td>-</td>
<td align="center"></td>
</tr>
<tr>

<td>
<a onclick="document.location='/u/p/albers_franz-4438178/credit_suisse_ag_CH-020.3.923.549-1.htm'" href="/u/p/albers_franz-4438178/credit_suisse_ag_CH-020.3.923.549-1.htm">Albers Franz</a> *&nbsp;<br>

</td>

<td>
VR-Mitglied
</td>
<td><a onclick="document.location='http://www.moneyhouse.ch/u/pub/credit_suisse_ag_CH-020.3.923.549-1.htm#04.05.1998'" href="/u/pub/credit_suisse_ag_CH-020.3.923.549-1.htm#04.05.1998">14 Jahre (04.05.1998)</a></td>
<td>-</td>
<td align="center"></td>
</tr>
</tbody>
</table>
</body>
</html>

最佳答案

为了读取 JSoup 中的本地文件,您需要使用 parse method that takes a File object而不是采用 HTML 内容的。替换

Document doc = Jsoup.parse("C:\\...\\myFile.html", "UTF-8");

Document doc = Jsoup.parse(new File("C:\\...\\myFile.html"), "UTF-8");

关于java - 用JSOUP解析HTML文档,无法选择表格节点?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14130548/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com