gpt4 book ai didi

php - 在解析网页时删除 javascript 代码

转载 作者:可可西里 更新时间:2023-10-31 23:34:00 26 4
gpt4 key购买 nike

当通过 CURLfile_get_contents 捕获网页内容时,删除内联 javascrip 代码的最简单方法是什么。我正在考虑使用正则表达式来删除标签之间的所有内容;但正则表达式不是用于此目的的可靠方法。

有没有更好的方法来解析 html 页面(只删除 javascript 代码)?如果正则表达式仍然是最佳选择,那么最可靠的命令是什么?

最佳答案

您可以使用 DOMDocument及其 removeChild()功能。像下面这样的东西应该会让你继续。

<?php

$doc = new DOMDocument;
$doc->load('index.html');

$page = $doc->documentElement;

// we retrieve the chapter and remove it from the book
$scripts = $page->getElementsByTagName('script');
foreach($scripts as $script) {
$page->removeChild($script);
}

echo $doc->saveHTML();
?>

关于php - 在解析网页时删除 javascript 代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8063514/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com