gpt4 book ai didi

python - find_all 具有多个属性

转载 作者:太空宇宙 更新时间:2023-11-03 21:32:59 25 4
gpt4 key购买 nike

我想找到页面上的所有链接,此代码仅获取以http://开头的链接,但大多数链接都是https:// 我如何编辑下面的代码来找到两者?

for link in soup.find_all('a',attrs={'href':re.compile("^http://")}):

import requests,bs4,re
res=requests.get('https://www.nytimes.com/2018/11/21/nyregion/president-trump-immigration-law-firms.html?action=click&module=Top%20Stories&pgtype=Homepage')
soup=bs4.BeautifulSoup(res.text,'html.parser')
x=[]
y=[]
z=[]
for link in soup.find_all('a',attrs={'href':re.compile("^http://")}):
print(link.get('href'))
x=link.get('href')

我知道我可以简单地获取所有链接,但我想在一个 find_all< 中同时获取 http://https:///

for i in soup.select('a'):
print(i.get('href'))

最佳答案

您可以使用此正则表达式来匹配 httphttps:

^(http|https)://.*

正则表达式(a|b)表示:匹配模式ab

关于python - find_all 具有多个属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53423583/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com