gpt4 book ai didi

python - 将 url 与 python 中的自定义模式进行比较

转载 作者:行者123 更新时间:2023-12-01 04:04:01 24 4
gpt4 key购买 nike

当我抓取网站上的文章网址并获取所有 <a> 时标签并获取所有 href属性,此网址列表有一些链接不是文章的链接,而是指向其他类别或同一域内任何其他页面的链接,因此我需要执行以下操作:

为网址创建一个模式,并将链接列表中的每个网址与该模式进行匹配,这样我就可以知道该网址是否是文章网址

模式示例如下:

链接:“http://www.cnbc.com/2016/03/13/financial-times-china-rebuts-economy-doomsayers-on-debt-and.html

模式匹配:http://www.cnbc.com/(*)/(*)/(*)/(*).html

因此,将链接的任何可变部分替换为 ( * )

问题是如何将链接与模式匹配?

最佳答案

正则表达式 (regex) 匹配

您可以使用regex match来做到这一点.

import re

# Example url
url = 'http://www.cnbc.com/2016/03/13/financial-times-china-rebuts-economy-doomsayers-on-debt-and.html'
# Create a regex match pattern
pattern = r'http://www.cnbc.com/(.+)/(.+)/(.+)/(.+).html'
# Find match
m = re.match(pattern, url)
# Get Groups
m.groups()
<小时/>
('2016',
'03',
'13',
'financial-times-china-rebuts-economy-doomsayers-on-debt-and')

关于python - 将 url 与 python 中的自定义模式进行比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35974139/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com