gpt4 book ai didi

支持 XPath 轴的 Java Html 解析器?

转载 作者:行者123 更新时间:2023-12-01 13:57:56 25 4
gpt4 key购买 nike

下面是一个 html 文档的片段,我需要为其关联“标题” - 例如FILE_BYTES_WRITTEN - 第一个后续 .txt 文件中包含 text() 条目。

以下 xpath 在 python lxml 中运行良好:

/td[text()='FILE_BYTES_WRITTEN']/following-sibling::td

文档片段:

   <td>HDFS_BYTES_READ</td>
<td align="right">4,825</td>
<td align="right">0</td>
<td align="right">4,825</td>
</tr>

<tr>

<td>FILE_BYTES_WRITTEN</td>
<td align="right">415,881</td>
<td align="right">48,133</td>
<td align="right">464,014</td>
</tr>

<tr>

<td>HDFS_BYTES_WRITTEN</td>
<td align="right">98,580,205</td>
<td align="right">2,010</td>
<td align="right">98,582,215</td>
</tr>

但是当我尝试在 Java 中执行此操作时,我的成功率较低。我不确定是否有任何 java html 解析器可以支持这一点。我目前正在使用 HtmlCleaner。

最佳答案

您可以查看HtmlUnit它有很好的 getByXPath() 函数。它是一个简单的浏览器。尝试研究示例。

我最喜欢的用于解析的另一个是 Jsoup ,它具有强大的 select(query)功能轻松完成这些事情。看看它的selector class文档。您会找到您需要的一切。

关于支持 XPath 轴的 Java Html 解析器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19525643/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com