PHP DOMXPath 使用完整路径获取值

PHP DOMXPath 使用完整路径获取值 - 无 ID

转载作者：行者123 更新时间：2023-12-04 16:12:47

29

4

我试图通过直接 XPath 获取元素的值，因为该元素没有 ID。

$dom = new DOMDocument();
@$dom->loadHTML($rawHTML);
$finder = new DOMXPath($dom);

//this works well
$elements = $finder->query("//*[@id='html-ID-value']")->item(0);

//this does Not work
$testPath = '/html/body/div[2]/div[1]/div[7]/div[1]/div/div/table/tbody/tr[6]/td';

//tested several different ways to fetch the data
$elements = $finder->query("//*[@xpath='" . $testPath . "']");
$elements = $finder->query( $testPath );
$elements = $finder->evaluate( $testPath );

我正在通过 Firefox 生成测试直接 XPath。我使用检查器突出显示一个元素，然后右键单击它并选择复制 XPath。

使用 ID 时，代码运行良好，但我无法使用直接 XPath 获取数据。

我正在寻找的元素没有任何可搜索的唯一值。我想使用直接 XPath 而不是遍历复杂的 DOM 对象，因为我需要这段代码在许多不同的路径上进行操作，这些路径都将不同。

任何帮助将非常感激。

谢谢。

========== 编辑/更新 ====================================== ============

非常感谢您的回复。我添加了一个更完整的例子来说明我遇到的问题。在这个例子中，我使用谷歌的主页并通过 ID 获取数据，然后通过完整的 XPath 获取另一个数据。 ID 获取良好，完整的 XPath 失败。

我还尝试了“评估”方法。

我无法减少或简化完整的 XPath 数据，因为这只是一个例子。如果没有可获取的 ID，则用户将生成此路径。所以路径每次都会根据用户的需要而不同。

我确实同意浏览器上获取的路径在 PHP 中解析后可能有所不同，这可能是导致问题的原因。我不知道我将如何解决这个问题。

<?php

error_reporting(E_ALL);
ini_set('display_errors', 1);

$ch = curl_init();

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_VERBOSE, true);
curl_setopt($ch, CURLOPT_AUTOREFERER, true);
curl_setopt($ch, CURLOPT_REFERER, "http://www.google.com/bot.html");
curl_setopt($ch, CURLOPT_HEADER, 0);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_8; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.127 Safari/534.16" );

curl_setopt($ch, CURLOPT_URL, "https://www.google.com/" );
$result = curl_exec($ch);
curl_close($ch);

$dom = new DOMDocument();
@$dom->loadHTML($result);
$finder = new DOMXPath($dom);

// get "google offered in:" text by id ----------------------------------------------
$elements = $finder->query("//*[@id='SIvCob']")->item(0);

$results = '';

if ($elements) {
    $results = $elements->firstChild->textContent;
} else {
    $results = "";
}

print('google language: [' . $results . "] <br>"); //returns "Google offered in: " as expected

// get "Store" text by full xpath, top left corner of page -------------------------------------------
$xpath = "/html/body/div/div[3]/div[1]/a[2]"; //path generated by firefox inspector, right clicking on element

$elements = $finder->query($xpath)->item(0);

$results = '';

if ($elements) {
    $results = $elements->firstChild->textContent;
} else {
    $results = "";
}

print('google store: [' . $results . "] <br>");  //returns nothing
print_r($elements); //returns nothing

//trying again ----------------------------------------------------------------------------

$result = $finder->evaluate($xpath);
foreach ($result as $node) {
    var_dump($node); //returns nothing
}

最佳答案

Firefox 中解析的 DOM 不一定与原始源相同。 Firefox 修改/修复文档。例如，它添加了 tbody元素。

所以试试吧:

$expression = '/html/body/div[2]/div[1]/div[7]/div[1]/div/div/table/tr[6]/td';
$result = $finder->evaluate($expression);
foreach ($result as $node) {
  var_dump($node);
}

但是我建议使用其他东西作为条件来使表达式不那么复杂。例如 table 周围的 div 的 class 属性。

//div[@class="aClass anotherClass"]/table/tr[6]/td

还是第一个 th的内容表内:

//table[contains((tr/th)[1], "Column Header")]/tr[6]/td

关于PHP DOMXPath 使用完整路径获取值 - 无 ID，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59349019/

29

4

0

文章推荐： c#-4.0 - 使用 IQueryable 代替 DbSet 问题

文章推荐： wolfram-mathematica - Mathematica 支持非 Wolfram 数学字体

文章推荐： ruby-on-rails - Rails 事件记录翻译 : Auto capitalize/downcase?

文章推荐： jpa - 在 JPA 中映射 i18n 表

java - 新文件(路径)或class.getResourses(路径)？
BufferedImage image = ImageIO.read(SpriteSheet.class.getResource(path)); BufferedImage image = Image
reactjs - 部署到 heroku 路径 ="/"路径 ="/favicon.ico"时出现问题
希望有人能够帮助我解决将我的 React 应用程序推送到 Heroku 时遇到的问题。 heroku 日志反复显示以下错误。 at=error code=H10 desc="App crashed"
apache-spark - Kotlin:get(路径:......) Unresolved reference :路径
我是 Kotlin 的新手，我正在经历这样的例子。 . . package com.example.lambda1 import spark.Spark.get fun main(args: Arra
android - 无法创建 JVM : error code -6, JVM 路径:C:\
如果您已经安装了 32 位 JDK，请在中定义一个 JAVA_HOME 变量 Computer>System Properties>System Setting>Enviorment VAriable
java - 转换 Java 文件 ://URL to File(. ..) 路径，独立于平台，包括 UNC 路径
我正在开发一个独立于平台的应用程序。我收到一个文件 URL*。在 Windows 上，这些是: file:///Z:/folder%20to%20file/file.txt file://host/f
objective-c - Cocoa/Objective-C 获取一个 HFS 路径(路径 :to:desktop) from a posix path (path/to/desktop)
我在 OSX、Objective-C 上。我有一个像这样的路径/NSURL /Users/xxx/Desktop/image2.png 但我将它传递给第三方应用程序，该应用程序会像 excpect
macos - 如何在 Mac os 上的 Android Studio 中提供 Flutter SDK 路径，如何在 MACOS 中更新 Flutter SDK 路径？
我已经安装了 Android studio 和插件的 DART，FLUTTER 来启动 flutter，但是因为我在创建我的第一个 flutter 项目时无法提供 sdk 路径。最佳答案我试图找出
django - 我可以在同一个 url 模式中包含两个不同的 url 吗？示例 [路径 ('api/' , 包括 ('quiz.urls' )), 路径 ('api/' , 包括 ('user.urls' )) ]
127.0.0.1:8000/api/仅包含来自第二个应用程序的 url，但我将两个 url 模块链接到相同的模式。甚至有可能做到这一点吗？第一个应用程序: from django.urls imp
WordPress媒体完全控制图像uri/路径
对于大量图像(大约 1k，加上相同数量的拇指，在大约 500 个文件夹中)，我们要求网站上使用的所有图像 URI 都必须具有 SEO 优化路径。它们已经准备好并提供完整的路径结构(每个文件夹包含一个具
安卓新文件(路径)
为什么 f 不是一个文件？什么可能导致这种情况？ String currentPhotoPath = "file:/storage/sdcard0/Pictures/someFileName.
Gradle:有效的项目名称/路径？
Gradle 中的项目名称或路径中允许使用哪些字符？它是否与特定操作系统的目录名称中允许的字符相同(例如: http://en.wikipedia.org/wiki/Filename#Reserve
SQL:在表中查找缺少的层次结构文件夹(路径)
我有一个包含文件夹路径的表格。我需要找到层次结构中这些文件夹之间的所有“差距”。我的意思是，如果表格包含这 3 个文件夹: 'A' 'A\B\C' 'A\B\C\D\E\F\G' 我需要在层次结构中找
存储库的 svn 路径
我在 Linux 服务器上的/home/subversion 中安装了 svn - 那里有一个 ROOT 文件夹，其中包含 db 和 conf 等文件夹。没有映射到项目名称的文件夹，请有人告诉我如何列
webpack - 文件加载器中的意外 [路径]
对于我的图像位置:/src/assets/bitmap/sample.jpg 给出了关键配置: context: resolve('src') output: { path: resolve('b
圆角为圆弧的 SVG 路径
我需要创建带有圆角的 SVG 路径，以将它们导出到 DXF 进行切割。我的问题是角应该是圆弧，而不是贝塞尔曲线。使用 arc 命令相对容易处理直角，因为半径也是从拐角到圆弧起点的距离。对于其他角度，
Airflow 连接类型文件(路径)
大家好，我正在玩 Airflow，我正在阅读这篇很有帮助的 tutorial .我正在寻求帮助以更好地了解 Admin->Connection 如何在 Conn Type: File (path) 方
r - 如何在R中正确设置库目录/路径
我的目标是定义R将用于安装和搜索库的单个路径。我read可以通过更改Rprofile.site安装路径中的R文件来完成。我在那里尝试了两个命令: .libPaths("D:/RLibrary") .L
AngularJS:从页面获取以前的网址(路径)
我有一个问题:当我在一个页面中时，我想返回到上一页。我使用 $routeProvider。如何读取之前的 url？我尝试在我的 Controller 中使用此代码但不起作用... angular.m
在未参与合并操作的分支上找不到 svn 路径
我正在尝试将一个文件从我的主干合并到一个分支(wc)，并且对于看起来位于当前合并操作中不涉及的分支上的路径出现奇怪的未找到路径错误。例如，在我们的 svn 项目中，我们有: 分行分支 0 分支 1
r - 回溯一棵树的两列数据的父项/路径
我有一个树数据序列化如下: 关系:P到C是“一对多”，C到P是“一对一”。所以列 P 可能有重复的值，但列 C 有唯一的值。 P, C 1, 2 1, 3 3, 4 2, 5 4, 6 # in da

首页

博学

6Ren·AI

商城

PHP DOMXPath 使用完整路径获取值 - 无 ID