gpt4 book ai didi

PHP DOMDocument - 获取 BODY 的 html 源代码

转载 作者:IT王子 更新时间:2023-10-29 00:12:07 25 4
gpt4 key购买 nike

我正在使用 PHP 的 DOMDocument 来解析和规范化用户提交的 HTML,使用 loadHTML方法解析内容,然后通过 saveHTML 获得格式正确的结果:

$dom= new DOMDocument();
$dom->loadHTML('<div><p>Hello World');
$well_formed= $dom->saveHTML();
echo($well_formed);

这在解析片段和添加适当的结束标记方面做得很好。问题是我也得到了一堆我不想要的标签,比如 <!DOCTYPE> , <html> , <head><body> .我知道每个格式良好的 HTML 文档都需要这些标签,但我正在规范化的 HTML 片段将被插入到现有的有效文档中。

最佳答案

解决您的问题的快速方法是使用 xPath 表达式来抓取正文。

$dom= new DOMDocument();
$dom->loadHTML('<div><p>Hello World');
$xpath = new DOMXPath($dom);
$body = $xpath->query('/html/body');
echo($dom->saveXml($body->item(0)));

这里提醒一句。有时 loadHTML 会在遇到格式不正确的 HTML 文档时抛出警告。如果你正在解析那些类型的 HTML 文档,你需要找到一个 better html parser [自链接警告]。

关于PHP DOMDocument - 获取 BODY 的 html 源代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2345670/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com