gpt4 book ai didi

python - Python 中的规范 URL 比较?

转载 作者:太空狗 更新时间:2023-10-29 21:07:50 26 4
gpt4 key购买 nike

是否有任何工具可以在 Python 中进行 URL 比较?

例如,如果我有 http://google.comgoogle.com/ 我想知道它们可能是同一个网站.

如果我要手动构建规则,我可能会将其大写,然后去掉 http:// 部分,并在最后一个字母数字字符后删除任何内容。但我可以看到这样做的失败,我相信你也可以。

是否有库可以执行此操作?你会怎么做?

最佳答案

这超出了我的想象:

def canonical_url(u):
u = u.lower()
if u.startswith("http://"):
u = u[7:]
if u.startswith("www."):
u = u[4:]
if u.endswith("/"):
u = u[:-1]
return u

def same_urls(u1, u2):
return canonical_url(u1) == canonical_url(u2)

显然,还有很多空间可以解决这个问题。正则表达式可能比 startswith 和 endswith 更好,但你明白了。

关于python - Python 中的规范 URL 比较?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3285295/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com