gpt4 book ai didi

php - 如何确定 html 标记是否拆分为多行

转载 作者:可可西里 更新时间:2023-11-01 00:04:33 29 4
gpt4 key购买 nike

我正在编写一个涉及抓取网页的 PHP 脚本。目前,该脚本逐行分析页面,但如果存在跨越多行的标记(例如

),它就会中断
<img src="example.jpg"
alt="example">

如果情况变得更糟,我可能会通过删除所有换行符来预处理页面,然后将它们重新插入到最近的 > 处,但这似乎有点乱七八糟。

理想情况下,我能够检测到跨行的标记,仅将这些标记连接到行,然后继续处理。
那么检测这种情况的最佳方法是什么?

最佳答案

这是我最讨厌的事情之一:从不手动解析 HTML。 从不使用正则表达式解析 HTML。 从不使用字符串比较来解析 HTML。 始终使用 HTML 解析器来解析 HTML – 这就是它们的用途。

我已经有很长时间没有用过 PHP 了,但是快速搜索出现了 this PHP5 HTML parser .

关于php - 如何确定 html 标记是否拆分为多行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33814/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com