gpt4 book ai didi

javascript - 使用 RegEx 分解 html 源代码

转载 作者:行者123 更新时间:2023-12-02 13:51:45 25 4
gpt4 key购买 nike

我正在尝试将每个标签与我收到的 HTML 源代码分开。

这是我收到的一段巨大的代码,我正在努力使其更“可读”,以便于人类分析。到目前为止我只弥补了这个正则表达式代码:

RegEx(<\w*>.*<\/\w*>)

但这就是 !DOCTYPE 的开头标记并运行“直到 </html>” 。

我想做的是单独选择每个标签,与类型无关。
另外,我正在使用 JavaScript 运行此 RegEx。

非常欢迎任何建议:)

最佳答案

解决眼前的问题是微不足道的。您需要制作通配符 lazy instead of greedy

即您想将 * (匹配所有与前一个事物匹配的内容)更改为 *? (尽可能少地匹配与前一个事物匹配的内容,但仍允许您匹配下一步)

...但是如果属性值、脚本元素或样式元素等中有 > ,您的代码就会中断。

解析 HTML 并不简单。 Regular expressions are not a good tool for it.请改用现有的库。

关于javascript - 使用 RegEx 分解 html 源代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40980963/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com