gpt4 book ai didi

php - 如何从任何网页中仅提取主要内容? (没有页脚、菜单栏、导航栏、页脚、侧边栏、面包屑)

转载 作者:行者123 更新时间:2023-12-02 05:16:34 25 4
gpt4 key购买 nike

我已经使用这段代码提取了整个正文内容。但我不知道必须删除导航栏、页脚、侧边栏、面包屑。谁能建议我如何完成这项工作?

foreach($dom->getElementsByTagName("body")->item(0)->childNodes as $child) {
$bodycontent .= $dom->saveHTML($child); }

最佳答案

您可以使用诸如可读性之类的东西,它已在多种语言中实现:

关于php - 如何从任何网页中仅提取主要内容? (没有页脚、菜单栏、导航栏、页脚、侧边栏、面包屑),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41633482/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com