gpt4 book ai didi

python - 获取链接的根域

转载 作者:IT老高 更新时间:2023-10-28 21:00:42 26 4
gpt4 key购买 nike

我有一个链接,例如 http://www.techcrunch.com/我想只获取链接的 techcrunch.com 部分。我如何在 python 中解决这个问题?

最佳答案

使用 urlparse 获取主机名非常简单:

hostname = urlparse.urlparse("http://www.techcrunch.com/").hostname

然而,获取“根域”会带来更多问题,因为它没有在句法意义上定义。 “www.theregister.co.uk”的根域是什么?使用默认域的网络怎么样? “devbox12”可能是一个有效的主机名。

处理此问题的一种方法是使用 Public Suffix List ,它尝试对真正的顶级域(例如“.com”、“.net”、“.org”)以及像 TLD 一样使用的私有(private)域(例如“.co.英国”甚至“.github.io”)。您可以使用 publicsuffix2 从 Python 访问 PSL图书馆:

import publicsuffix
import urlparse

def get_base_domain(url):
# This causes an HTTP request; if your script is running more than,
# say, once a day, you'd want to cache it yourself. Make sure you
# update frequently, though!
psl = publicsuffix.fetch()

hostname = urlparse.urlparse(url).hostname

return publicsuffix.get_public_suffix(hostname, psl)

关于python - 获取链接的根域,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1521592/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com