gpt4 book ai didi

python - 如何从链接中获取完整的 url

转载 作者:行者123 更新时间:2023-11-28 01:16:41 25 4
gpt4 key购买 nike

说我去 http://www.example.com/dir1/dir2/index.html并且有以下链接:

<a href="/about/">Link</a> <a href="/about">Link</a> <a href="/page.html/">Link</a> <a href="/page.html">Link</a>

我遇到的问题是我不知道什么时候应该将哪些部分连接在一起,因为有些有斜线,有些没有,我必须考虑到这一点

http://www.example.com/dir1/dir2/index.html/about/

应该是

http://www.example.com/dir1/dir2/about/ .

还有,我怎么知道/about目录不是文件吗?我正在使用 python3.5urllib.request模块。

最佳答案

你可以试试这个-

base_url = "http://www.example.com/dir1/dir2"
next = "/index.html"

然后,对于每个链接,提取 href 属性并将其分配给 next。每个链接的最终 URL 将是 base_url + next

关于python - 如何从链接中获取完整的 url,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35526007/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com