php - 使用 PHP DOMDocument 解析脏 html 代码有困难-6ren

php - 使用 PHP DOMDocument 解析脏 html 代码有困难

转载作者：可可西里更新时间：2023-10-31 23:19:30

25

4

我希望能够加载任何 html 文档并使用 php 的 domdocument 功能对其进行编辑。
问题是，一些网站，例如 facebook，将 XML 样式的命名空间添加到它们的标签中。

<fb:like send="true" width="450" show_faces="true"></fb:like>

DOMDocument 对脏代码非常宽容，但它不会接受 html 代码中的命名空间。发生的事情是:

如果我使用 loadHTML 加载代码，命名空间将被删除，但我需要它保留
如果我使用 loadXML 加载代码，我会收到大量错误，指出我没有加载有效的 XML

所以我的想法是将我获得的 html 转换为 XML，以便我可以使用 loadXML 解析它。我的问题是，我该怎么做，我应该使用哪个工具(我听说过 Tidy，但我无法让它工作)或者使用不同的解析器(可以处理 html 中的 namespace 的解析器)是更好的主意代码)

代码片段:

<?php
$html = file_get_contents($_POST['url']);

$domDoc = new DOMDocument();
$domDoc->loadHTML($html);

//Just do anything here. It doesn't matter what. For example I'm deleting the head tag
$headTag = $domDoc->getElementsByTagName("head")->item(0);
$headTagParent = $headTag->parentNode;
$headTagParent->removeChild($headTag);

echo $domDoc->saveHTML();

//This will work as expected for any url EXCEPT the ones that use XML namespaces like facebook does as described above. In case of such dirty coding the namespace will get deleted by DOMDocument

?>

最佳答案

没有一种干净的方法可以在不丢失命名空间的情况下使用 DOMDocument 解析带有命名空间的 HTML，但有一些解决方法:

使用另一个接受 HTML 代码中的命名空间的解析器。看here一个很好的和详细的 HTML 解析器列表。这可能是最有效的方法。
如果您想坚持使用 DOMDocument，您基本上必须对代码进行预处理和后处理。
- 在将代码发送到 DOMDocument->loadHTML 之前，使用正则表达式、循环或任何您想要查找所有命名空间标签并将自定义属性添加到包含命名空间的开始标签。
```
<fb:like send="true" width="450" show_faces="true"></fb:like>
```
  然后会导致
```
<fb:like xmlNamespace="fb" send="true" width="450" show_faces="true"></fb:like>
```
- 现在将编辑后的代码提供给 DOMDocument->loadHTML。它将去除 namespace ，但会保留产生的属性
```
<like xmlNamespace="fb" send="true" width="450" show_faces="true"></like>
```
- 现在(再次使用正则表达式、循环或任何您想要的)找到所有具有属性 xmlNamespace 的标签，并将该属性替换为实际的命名空间。不要忘记将命名空间也添加到结束标记中!

关于php - 使用 PHP DOMDocument 解析脏 html 代码有困难，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30096287/

25

4

0

文章推荐： html - 使用CSS悬停后Div正在滑动

文章推荐： javascript - npm:安装和使用包的不同版本

文章推荐： javascript - 文档片段如何工作？

php - 输出 PHP 分隔符 ()，PHP 不解释分隔符
我在 JavaScript 文件中运行 PHP，例如...... var = '';). 我需要使用 JavaScript 来扫描字符串中的 PHP 定界符(打开和关闭 PHP 的 )。我已经知道使
php - PHP 是否具有确定与给定 PHP 脚本兼容的最旧 PHP 版本的内置方法？还是会永远？
我希望能够做这样的事情: php --determine-oldest-supported-php-version test.php 并得到这个输出: 7.2 也就是说，php 二进制检查 test.
php - 在没有 php 框架的情况下将 php 框架用于现有的 php 应用程序是个好主意吗？
我正在开发一个目前不使用任何框架的大型 php 站点。我的大问题是，随着时间的推移慢慢尝试将框架融入应用程序是否可取，例如在创建的新部件和更新的旧部件中？比如所有的页面都是直接通过url服务的，有几
php - 如何在同一 php 页面上的其他 php 脚本中使用 php 变量
下面是我的源代码，我想在同一页面顶部的另一个 php 脚本中使用位于底部 php 脚本的变量 $r1。我需要一个简单的解决方案来解决这个问题。我想在代码中存在的更新查询中使用该变量。 $name)
php - PHP 重定向后 PHP 是否继续执行？
我正在制作一个网站，根据不同的情况进行大量 PHP 重定向。就像这样...... header("Location: somesite.com/redirectedpage.php"); 为了安全起见
php - 如何避免在 php 文件中写入
我有一个旧网站，我的 php 标签从因为短标签已经显示出安全问题，并且在未来的版本中将不被支持。关于php - 如何避免在 php 文件中写入

php - 需要建议通过 php 编辑 php
我有一个用 PHP 编写的配置文件，如下所示，所以我想用PHP开发一个接口(interface)，它可以编辑文件值，如$WEBPATH , $ACCOUNTPATH和 const值(value)观
php - 无法发布 “PHP file” PHP
我试图制作一个登录页面来学习基本的PHP，首先我希望我的独立PHP文件存储HTML文件的输入(带有表单)，但是当我按下按钮时(触发POST到PHP脚本) )我一直收到令人不愉快的错误。我已经搜索了S
php - PHP 是否有生成有效 PHP 表达式的打印函数？
我正在寻找一种让 PHP 以一种形式打印任意数组的方法，我可以将该数组作为赋值包含在我的(测试)代码中。 print_r 产生例如: Array ( [0] => qsr-part:1285 [1]
php - PHP 数组键有大小限制吗？ PHP 数组一般有哪些限制？
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: What is the max key size for an array in PHP? 正如标题所说，我想知道
php - PHP 是否有生成有效 PHP 表达式的打印函数？
我正在寻找一种让 PHP 以一种形式打印任意数组的方法，我可以将该数组作为赋值包含在我的(测试)代码中。 print_r 产生例如: Array ( [0] => qsr-part:1285 [1]
php - 让函数在 php 刷新时执行 (PHP)
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
php - 按时间段显示菜单 PHP PHP MySQL
我在 MySQL 数据库中有一个表，其中存储餐厅在每个工作日和时段提供的菜单。表结构如下: i_type i_name i_cost i_day i_start i_
php - 将参数发送到嵌套在 PHP 页面内的动态 PHP
我有两页。 test1.php 和 test2.php。我想做的就是在 test1.php 上点击提交，并将 test2.php 显示在 div 中。这实际上工作正常，但我需要向 test2.php
php - 文本区域 -> php -> mysql -> php
我得到了这个代码。我想通过textarea更新mysql。我在textarea中回显我的MySQL，但我不知道如何更新它，我应该把所有东西都放进去吗，因为_GET模式没有给我任何东西，我也尝试_GET
php - 我如何将一个 php 的值解析为另一个 php
首先，我是 php 的新手，所以我仍在努力学习。我在 Wordpress 上创建了一个表单，我想将值插入一个表(data_test 表，我已经管理了)，然后从 data_test 表中获取所有列(id
php - php 中的安全首选项、php 函数来清理输入
我有以下函数可以清理用户或网址的输入: function SanitizeString($var) { $var=stripslashes($var); $va
php - HTML/PHP 登录重定向到 php
我有一个 html 页面，它使用 php 文件查询数据库，然后让用户登录，否则拒绝访问。我遇到的问题是它只是重定向到 php 文件的 url，并且从不对发生的事情提供反馈。这是我第一次使用 html、
php - onClick php PHP 函数然后重定向
我有一个页面充满了指向 pdf 的链接，我想跟踪哪些链接被单击。我以为我可以做如下的事情，但遇到了问题: query($sql); if($result){
php - 有没有办法从 PHP 代码加载的文件中解析 PHP？
我正在使用从外部文本文件加载 HTML/PHP 代码 $f = fopen($filename, "r"); while ($line = fgets($f, 4096)) { print $l

首页

博学

6Ren·AI

商城

php - 使用 PHP DOMDocument 解析脏 html 代码有困难