gpt4 book ai didi

python - Python 中用于清理和规范化 URL 的函数

转载 作者:太空狗 更新时间:2023-10-30 01:47:13 29 4
gpt4 key购买 nike

我使用 URL 作为键,因此我需要它们保持一致且干净。我需要一个 python 函数,它将接受一个 URL 并清理它,以便我可以从数据库中获取。例如,它将采用以下内容:

example.com
example.com/
http://example.com/
http://example.com
http://example.com?
http://example.com/?
http://example.com//

并输出一个干净一致的版本:

http://example.com/

我查看了标准库和 GitHub,找不到这样的东西

更新

我找不到一个 Python 库来实现这里和 RFC 中讨论的所有内容:

http://en.wikipedia.org/wiki/URL_normalization

所以我现在正在写一个。这比我最初想象的要多得多。

最佳答案

看看urlparse.urlparse() .我在这方面取得了很好的成功。


注意:此答案来自 2011 年,特定于 Python2。在 Python3 中,urlparse 模块已命名为 urllib.parseurllib.parse 的相应 Python3 文档可以在这里找到:

https://docs.python.org/3/library/urllib.parse.html

关于python - Python 中用于清理和规范化 URL 的函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5262470/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com