gpt4 book ai didi

python - 如何使用 re.match 查找 URL 的第一部分?

转载 作者:太空宇宙 更新时间:2023-11-04 02:02:59 25 4
gpt4 key购买 nike

我正在使用“urllib.request.urlopen(URL)”来查找不同服务器上不同文件的大小。问题是我需要验证自己。我通过以下方式做到这一点。

url = "https://abc123-abca93.xxx.xxxx.se/other_parts_of_url/file.tar"
top_level_url = "https://abc123-abca93.xxx.xxxx.se/"
password_mgr.add_password(None, top_level_url, 'username',password.get())
handler = urllib.request.HTTPBasicAuthHandler(password_mgr)
# create "opener" (OpenerDirector instance)
opener = urllib.request.build_opener(handler)

这样我现在就可以访问文件了

filesize = urllib.requests.urlopen(url).headers._headers[8][1]

但问题是每个文件的 URL 都会发生变化,所以我想使用 RegExp 来查找 URL 的第一部分,即

"https://"+more_characters+".se"+possibly_port_number+"/"

我在想我可以使用 re.match,但我不确定如何为这种情况编写正确的逻辑,是否可以做类似的事情

match = re.match("https://" + any amount of characters +"/", url)

最佳答案

您可以使用urllib 的解析功能:

from urllib.parse import urlparse

url = "https://abc123-abca93.xxx.xxxx.se/other_parts_of_url/file.tar"

parse_result = urlparse(url)

top_level_url = parse_result.netloc

关于python - 如何使用 re.match 查找 URL 的第一部分?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55359970/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com