gpt4 book ai didi

PHP 简单 HTML DOM 解析器 : how to get contents of the parent div containing

tags?

转载 作者:行者123 更新时间:2023-12-04 00:34:12 26 4
gpt4 key购买 nike

我正在抓取(使用 PHP 简单 HTML DOM)许多不同的(新闻)站点,目的是获取页面上的主要内容/文本正文。

要做到这一点,我能想出的最好方法是找到主标题/标题 (H1) 并将文本包含在与此标题标记相同的 div 中。

在下面的两个示例中,我将如何获取整个(父级?)div 的内容。

<div>  <----- need to get contents of this whole div (containing the h1 and likely the main body of text)
<h1></h1>
main body of text here
</div>

Div 可能在树的更上层。

<div> <----- need to get contents of this whole div
<div>
<h1></h1>
</div>

<div>
main body of text here
</div>
</div>

在树上进一步展开。

<div> <----- need to get contents of this whole div
<div>

<div>
<h1></h1>
</div>

<div>
main body of text here
</div>

</div>
</div>

然后我可以比较每个的大小,并确定主要的 div。

最佳答案

您可以使用 parent 获取 h1 的父元素:

# assuming that the <h1> element is the first <h1> on the page:
$div = $html->find('h1', 0)->parent();

关于PHP 简单 HTML DOM 解析器 : how to get contents of the parent div containing <h1> tags?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26288870/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com