gpt4 book ai didi

php - 如何使用 DOM 和 XPath 从页面中抓取链接?

转载 作者:行者123 更新时间:2023-12-02 09:38:58 25 4
gpt4 key购买 nike

我有一个用curl 抓取的页面,并且希望获取具有特定id 的所有链接。据我所知,最好的方法是使用 dom 和 xpath。下面的代码获取了大量的 url,但删除了其中的许多并获取不是 url 的文本。

$curl_scraped_pa​​ge 是使用curl 抓取的页面。

$dom = new DOMDocument();
@$dom->loadHTML($curl_scraped_page);
$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate("/html/body//a");

我走在正确的道路上吗?我是否只需要弄乱“/html/body//a”xpath 语法,还是需要添加更多内容来捕获 id 元素?

最佳答案

您也可以这样做,您将拥有只有 a 标记,其中包含 idhref :

$doc = new DOMDocument();
$doc->loadHTML($curl_scraped_page);
$xpath = new DOMXPath($doc);

$hrefs = $xpath->query('//a[@href][@id]');

关于php - 如何使用 DOM 和 XPath 从页面中抓取链接?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5425355/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com