gpt4 book ai didi

c# - 除特定子网站外的正则表达式 URL 模式

转载 作者:行者123 更新时间:2023-11-30 15:31:26 25 4
gpt4 key购买 nike

我正在开发一个网络爬虫,我正在尝试制作一个正则表达式来支持以下内容。

匹配:以

开头的所有页面
   http://intranet/

但不是以

开头
    http://intranet/sites/ and http://intranet/search/

在子文件夹中/页数/结束于.aspx

Valid sample: 
http://intranet/products/Pages/default.aspx
Invalid samples:
http://intranet/Pages/sofus/default.aspx
http://intranet/sites/products/Pages/default.aspx
http://intranet/products/Pages/default.aspx#

到目前为止我已经做到了

 ^http://intranet.*/Pages/.*.aspx+

感谢任何帮助。

最佳答案

这样的模式应该可行:

^http://intranet/(?!sites|search)[^/]+/Pages/.*\.aspx$

(?!...) 创建了所谓的 negative lookahead assertion并确保 [^/]+ 不以 sitessearch 开头。

这是一个 demonstration .

关于c# - 除特定子网站外的正则表达式 URL 模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20645114/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com