gpt4 book ai didi

python - 使用 Beautiful Soup 提取链接的等效正则表达式

转载 作者:行者123 更新时间:2023-12-02 00:54:22 24 4
gpt4 key购买 nike

我正在尝试通过 python 随机探索 Webscraping。我有 google 搜索结果页面的链接。我使用 url lib 提取了 GOOGLE SEARCH RESULT PAGE 中存在的所有链接。在 Beautiful Soup 库的帮助下,我从谷歌的那个解析页面中提取了所有可能的 anchor 标签。所以现在我有很多链接。在这些链接中,我想选择符合我所需模式的选定链接。示例我想选择所有这些行:这是已解析的众多链接之一。但我想缩小这样的链接的结果

/url?q=http://avadl.uploadt.com/DL4/Film/&sa=U&ved=0ahUKEwiYwOKe1r7hAhWUf30KHcHUBkMQFggUMAA&usg=AOvVaw39cIJ0T8_CAQMY8EkSWZJl

在这些选秀权中我只需要提取这部分

http://avadl.uploadt.com/DL4/Film/

我试过这个和这个

possible_websites.append(re.findall('/url?q=(\S+)',links))
possible_websites.append(re.findall('/url?q=(\S+^&)',links))

这是我的代码

soup = BeautifulSoup(webpage, 'html.parser')
tags = soup('a')
possible_websites=[]
for tag in tags:
links = tag.get('href', None)
possible_websites.append(re.findall('/url?q=(\S+)',links))

我想使用正则表达式来提取所需的文本部分。我正在使用 Beautiful soup 模块来提取 HTML 数据。简而言之,这是一个正则表达式问题。

最佳答案

这不是正则表达式,但我会使用 urllib :

from urllib.parse import parse_qs, urlparse

url = urlparse('/url?q=http://avadl.uploadt.com/DL4/Film/&sa=U&ved=0ahUKEwiYwOKe1r7hAhWUf30KHcHUBkMQFggUMAA&usg=AOvVaw39cIJ0T8_CAQMY8EkSWZJl')
qs = parse_qs(url.query)

print(qs['q'][0])

关于python - 使用 Beautiful Soup 提取链接的等效正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55562946/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com