gpt4 book ai didi

php - 使用 simple-html-dom 获取元素内容

转载 作者:太空狗 更新时间:2023-10-29 15:08:45 24 4
gpt4 key购买 nike

我正在使用 simpile_html_dom 获取 html 页面元素。我有一些像这样的 div 元素。我想要的只是在每个 div(不在任何子元素内)中获得“非常感谢”的句子。我该怎么做?

<div class="right">
<h2>
<a href="">Hello</a>
</h2>
<br/>
<span>How Are You?</span>
<span>How Are You?</span>
<span>How Are You?</span>
Fine Thanks
</div>

最佳答案

应该只是$html->find('div.right > text') ,但这不会起作用,因为简单 HTML DOM 解析器似乎不支持直接后代查询。

所以你必须找到所有 <div>首先搜索元素并在子节点中搜索文本节点。不幸的是,->childNodes()方法映射到 ->children()因此只返回元素。

一个有效的解决方案是调用 ->find('text')在每个 <div>元素,之后根据父节点过滤结果。

foreach ($doc->find('div.right') as $parent) {
foreach ($parent->find('text') as $node) {
if ($node->parent() === $parent && strlen($t = trim($node->plaintext))) {
echo $t, PHP_EOL;
}
}
}

使用 DOMDocument ,这个 XPath 表达式将毫无痛苦地完成同样的工作:

$doc = new DOMDocument;
$doc->loadHTML($content);
$xp = new DOMXPath($doc);

foreach ($xp->query('//div/text()') as $node) {
if (strlen($t = trim($node->textContent))) {
echo $t, PHP_EOL;
}
}

关于php - 使用 simple-html-dom 获取元素内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15942198/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com