gpt4 book ai didi

java - XQuery 表达式 - 屏幕抓取 - Saxon/JTidy

转载 作者:行者123 更新时间:2023-11-30 08:01:01 25 4
gpt4 key购买 nike

我正在开发一个使用 Jtidy/Saxon 的 Java Web Scraper。 Tidy Parsed DOM 通过 XQuery 表达式发送到 Saxon 以提取数据。我在使用 XQuery 表达式时遇到困难。

网站是http://www.pacra.com.pk/reports.php 。我想提取所有表数据,必须使用 XQuery 来完成才能与旧系统配合使用。

本质上我想要的是循环遍历此 XPath 上的所有 tr 标记 //*[@id="mainDiv"]/div/table/tbody

返回tr标签循环遍历每个 tr 中的所有 td 标签返回前 6 个 td 标签 1, 2, 3, 4, 5, 6

中的文本

到目前为止我想到的是

for $tr in //table/tbody
for $row in $tr/child::tbody/child::tr
return <tr><td>{data($row/td[1])}</td>
<td>{data($row/td[1])}</td>
<td>{data($row/td[2])}</td>
<td>{data($row/td[3])}</td>
<td>{data($row/td[4])}</td>
<td>{data($row/td[6])}</td>

我的语法显然是错误的,我正在尝试学习 XQuery,但发现这个网站与教程示例 XML 有很大不同。如果有人可以提供帮助,我们将不胜感激!

最佳答案

该网站的 HTML 无效可能对您没有帮助,例如:

<table align="center" width="1024px">
<tr>
<td align="center" ><div id="mainDiv"><!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title></title>
</head>
<body>
<table>

注意新的html页面出现在<div id="main">内标签。另外,我不认为您想要的数据实际上位于带有 id="main" 的 div 中。 !

无论如何,您应该能够使用如下方式查询它:

declare namespace h = "http://www.w3.org/1999/xhtml";

for $tr in /h:html/h:html[2]/h:body/h:div/h:table/h:tr
return
<tr>{
$tr/h:td[position() le 6]
}</tr>

我使用 EXPath HTTP 客户端检索 HTML 并将其整理为 XML,因此以下内容对我有用:

import module namespace http = "http://expath.org/ns/http-client";
declare namespace h = "http://www.w3.org/1999/xhtml";

for $tr in http:send-request(<http:request href="http://www.pacra.com.pk/reports.php" method="get"/>)[2]/h:html/h:html[2]/h:body/h:div/h:table/h:tr
return
<tr>{
$tr/h:td[position() le 6]
}</tr>

关于java - XQuery 表达式 - 屏幕抓取 - Saxon/JTidy,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31922897/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com