gpt4 book ai didi

PHP DOM 文档 : Errors while parsing unescaped strings

转载 作者:技术小花猫 更新时间:2023-10-29 12:40:53 25 4
gpt4 key购买 nike

我在使用 PHP 的 DOMDocument 解析 HTML 时遇到问题。

我正在解析的 HMTL 具有以下脚本标记:

<script type="text/javascript">
var showShareBarUI_params_e81 =
{
buttonWithCountTemplate: '<div class="sBtnWrap"><a href="#" onclick="$onClick"><div class="sBtn">$text<img src="$iconImg" /></div><div class="sCountBox">$count</div></a></div>',
}
</script>

这段代码有两个问题:

1) buttonWithCountTemplate var 中的 HTML 未转义。 DOMDocument 正确地管理了这一点,在解析它时转义了字符。没问题。

2) 接近尾声时,有一个带有未转义结束标记的 img 标记:

<img src="$iconImg" />

/> 使 DOMDocument 认为脚本已完成,但它缺少结束标记。如果您使用 getElementByTagName 提取脚本,您将在此 img 标记处关闭标记,其余部分将作为 HTML 上的文本显示

我的目标是删除该页面中的所有脚本,因此如果我对该标签执行 removeChild(),该标签将被删除,但以下部分在呈现页面时显示为文本:

</div><div class="sCountBox">$count</div></a></div>',
}
</script>

修复 HTML 不是解决方案,因为我正在开发一个通用解析器并且需要处理所有类型的 HTML。

我的问题是在将 HTML 提供给 DOMDocument 之前我是否应该进行任何清理,或者是否有一个选项可以在 DOMDocument 上启用以避免触发此问题,或者即使我可以在加载 HTML 之前去除所有标签。

有什么想法吗?


编辑

经过一些研究,我发现了 DOMDocument 解析器的真正问题。考虑以下 HTML:

<div> <!-- Offending div without closing tag -->
<script type="text/javascript">
var test = '</div>';
// I should not appear on the result
</script>

使用以下 php 代码删除脚本标签 ( based on Gholizadeh's answer ):

<?php
error_reporting(E_ALL);
ini_set('display_errors', 1);

$dom = new DOMDocument;
$dom->preserveWhiteSpace = false;
libxml_use_internal_errors(true);
$dom->loadHTML(file_get_contents('js.html'), LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);
//@$dom->loadHTMLFile('script.html'); //fix tags if not exist

while($nodes = $dom->getElementsByTagName("script")) {
if($nodes->length == 0) break;
$script = $nodes->item(0);
$script->parentNode->removeChild($script);
}

//return $dom->saveHTML();
$final = $dom->saveHTML();
echo $final;

结果如下:

<div> <!-- Offending div without closing tag -->
<p>';
// I should not appear on the result
</p></div>

问题是第一个 div 标签没有关闭,似乎 DOMDocument 将 JS 字符串中的 div 标签作为 html 而不是简单的 JS 字符串。

我该怎么做才能解决这个问题?请记住,修改 HTML 不是一种选择,因为我正在开发通用解析器。

最佳答案

我在这样的 html 文件上测试了以下代码:

<p>some text 1</p>
<img src="http://www.example.com/images/some_image_1.jpg">
<p>some text 2</p>
<p>some text 3</p>
<img src="http://www.example.com/images/some_image_2.jpg">

<script type="text/javascript">
var showShareBarUI_params_e81 =
{
buttonWithCountTemplate: '<div class="sBtnWrap"><a href="#" onclick="$onClick"><div class="sBtn">$text<img src="$iconImg" /></div><div class="sCountBox">$count</div></a></div>',
}
</script>

<p>some text 4</p>
<p>some text 5</p>
<img src="http://www.example.com/images/some_image_3.jpg">

PHP代码是:

<?php
error_reporting(E_ALL);
ini_set('display_errors', 1);

$dom = new DOMDocument;
$dom->preserveWhiteSpace = false;
@$dom->loadHTML(file_get_contents('script.html'), LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);
//@$dom->loadHTMLFile('script.html'); //fix tags if not exist

$nodes = $dom->getElementsByTagName("script");

foreach($nodes as $i => $node){
$script = $nodes->item($i);
$script->parentNode->removeChild($script);
}

//return $dom->saveHTML();
$dom->saveHtmlFile('script.html');

它适用于给定的示例我认为您应该使用我在加载 html 代码时使用的选项。

根据上次问题更新编辑:

实际上,您无法使用正则表达式解析 [X]HTML(阅读此 link 了解更多信息)但是如果你的唯一目的是只删除脚本标签并且你可以确保没有</script>标记为它之间的字符串。你可以使用这个正则表达式:

$html = mb_convert_encoding(file_get_contents('script2.html'), 'HTML-ENTITIES', 'UTF-8');
$new_html = preg_replace('/<script(.*?)>(.*?)<\/script>/si', '', $html);
file_put_contents('script-result.html', $new_html);

坦率地说,问题是您可能没有标准的 HTML 代码。但我认为最好尝试链接的其他库 here .

否则我猜你应该写一个特殊的解析器来删除脚本标签并处理里面的单引号和双引号。

关于PHP DOM 文档 : Errors while parsing unescaped strings,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40703313/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com