gpt4 book ai didi

java - 对抓取 HTML 标签正则表达式模式感到困惑

转载 作者:行者123 更新时间:2023-12-01 12:45:56 24 4
gpt4 key购买 nike

我正在阅读regular-expressions.info尝试了解更多正则表达式模式的示例。

第一个例子Grabbing HTML Tags讨论特定 HTML 标记的开始和结束对的正则表达式。

<TAG\b[^>]*>(.*?)</TAG>

我在这里有点困惑。为什么将 \b[^>]* 添加到上面的正则表达式模式中,使用下面的正则表达式模式可以实现相同的效果:

<TAG>(.*?)</TAG>

为什么使用这个额外的正则表达式模式?它对性能有帮助吗?

最佳答案

  • 这是为了匹配像 <a href=...> stuff </a> 这样的东西,而不是简单的 <b> stuff </b>您的选择将发挥作用。
  • \b需要边界以避免匹配类似 <attribute ...> stuff </a> 的东西
  • 惰性量词 .*?需要在开始和结束标签之间,而不是 [^<]* ,因为在开始和结束标记之间您可能有另一个标记(例如 <b> )

关于java - 对抓取 HTML 标签正则表达式模式感到困惑,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24709037/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com