Python urlparse——提取没有子域的域名-6ren

Python urlparse——提取没有子域的域名

转载作者：IT老高更新时间：2023-10-28 20:37:35

27

4

需要一种使用 Python urlparse 从 url 中提取不带子域的域名的方法。

例如，我想从 "http://www.google.com" 之类的完整网址中提取 "google.com"。

urlparse 似乎与我最接近的是 netloc 属性，但它包括子域，在本例中为 www.google。 com.

我知道可以编写一些自定义字符串操作来将 www.google.com 转换为 google.com，但我想避免在此任务中手动进行字符串转换或正则表达式。 (原因是我对 url 形成规则不够熟悉，因此我有信心可以考虑编写自定义解析函数所需的每个边缘情况。)

或者，如果 urlparse 不能满足我的需求，有没有人知道其他 Python url 解析库可以做到吗？

最佳答案

您可能想查看 tldextract ，一个专为做这种事情而设计的库。

它使用公共(public)后缀列表尝试根据已知 gTLD 进行适当的拆分，但请注意，这只是一个蛮力列表，没有什么特别之处，因此它可能会过时(尽管希望它经过精心策划不)。

>>> import tldextract
>>> tldextract.extract('http://forums.news.cnn.com/')
ExtractResult(subdomain='forums.news', domain='cnn', suffix='com')

所以在你的情况下:

>>> extracted = tldextract.extract('http://www.google.com')
>>> "{}.{}".format(extracted.domain, extracted.suffix)
"google.com"

关于Python urlparse——提取没有子域的域名，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14406300/

27

4

0

文章推荐： python - 在 sqlalchemy 中选择

文章推荐： java - 在 VIM 中开发 Java 有哪些好的插件？

文章推荐： python - 如何判断文件是否经过 gzip 压缩？

文章推荐： java - hibernate 和子树异常的意外结束

c# - '域名/机器名 $' being used for authentication instead of ' 域名/用户名'
以下帖子可能看起来相同，但在尝试作为答案提供的所有解决方案后，我无法纠正问题。(Login failed for user 'DOMAIN\MACHINENAME$') 我的问题我正在 Window
域名、虚拟主机是什么意思
域名、虚拟主机是什么意思?有的新手用户不理解，为什么做网站要买域名和空间才行。这里我们来分别介绍下域名和虚拟主机。关于域名域名通俗的说，就是你网站的名号，你注册域名之后就以这个名号去宣传
url - 将SSH连接限制为特定的URL/域名
我有一台具有2个域名的服务器(比如domain1.com和domain2.com)。我可以通过ssh user@domain1.com和ssh user@domain2.com SSH进入服务器。我
apache - phpmyadmin 域名
我已经设置了一个 Ubuntu LAMP 服务器，并且我的网站可以正常运行 phpmyadmin。但是，我最近不得不为我的 IP 地址创建一个虚拟主机，以避免 Tomcat 中的目录列表出现安全问题，
Nginx用户认证配置方法详解(域名/目录)
Nginx可以为某一个域名单独加用户认证，具体做法如下： 1. 生成用户认证的用户名和密码：复制代码代码如下: #wget -c soft.vpser.net/ln
Centos中基于IP,域名,端口的虚拟主机搭建图文教程
Centos中基于IP的虚拟主机搭建首先,检查是否已安装httpd软件包安装httpd软件包安装完成启动服务主配置文件是/etc/httpd/conf/htt
新网互联域名泛解析设置方法
1、什么是泛域名解析？泛域名解析是指将*.域名解析到同一IP。在域名前添加任何子域名，均可访问到所指向的WEB地址。也就是客户的域名a.com之下所设的*.a.com全部解析到同一个IP地
nlp - 获取指定单词的 WordNet 域名
我知道 WordNet 有域层次结构:例如运动->足球。 1) 是否可以列出所有与“sport->football”子域相关的单词？ Response: goalkeeper, forward,
dns - 尝试设置 .ka 域名
我正在尝试为我正在处理的项目的 URL 缩短器设置一个带有 .ka 后缀的域。例如类似于 drbl.in。我在网上查了一下，这个后缀似乎还没有在任何国家注册过，也没有出现过任何域名服务。关于如何解决这
dns - 什么是 XMPP 域名？
我在设置 Openfire 时遇到问题。 Openfire 设置中的默认 XMPP 域名显示我的计算机名称，因此每当我通过 Spark 进行测试时，它都不起作用。我尝试了我拥有的域，但在 openf
php - 域名 .company 不被接受
我正在使用 Joomla 的 JSN Uniform 插件来接收电子邮件，但它不接受 .company 域作为有效域。它接受常用域(com、net、org、info、biz 等)，但不接受 .comp
java - 域名+nginx+tomcat设置
我创建了一个域名并将其重新定义为您的外部 IP 地址。同时启动 nginx 和 tomcat。将域重新定义为外部 IP 地址。 truckpart4you.com:8081/spring 我想隐藏80
javascript - 如何使用正则表达式来获取 super 域名？
与子域相反。我试过了。 var a = window.location.hostname.match(/(www.)?([^\.]*)\./)[2]; 但这会抢 frozen-dusk-2587
python - 在电子邮件模板中获取根 URL/域名
我正在使用 django 的 send_mail 发送一封电子邮件(使用模板)，其中包含以下行: 要重置密码，请点击以下链接: http://localhost:8000/{% url 'reset_
python - 蜘蛛的 Scrapy 域名
来自 Scrapy 教程: domain_name: identifies the Spider. It must be unique, that is, you can’t set the same
javascript - 正则表达式 strip 域名
一个快速简单的正则表达式问题我在字符串中有一个域名，我需要删除它 - 总是有 http://www. 并且域总是以“/”结尾 g_adv_fullpath_old = g_adv_fullpath_
xml - 强制xslt生成 "xml"域名
我需要 xslt 版本 2 在记录或元素级别为“xml”属性前缀 (xml:lang="en-us") 生成域名: xmlns:xml="http://www.w3.org/XML/1998/name
c++ - 如何获取 Windows 域名？
如何获取机器的域名(如果机器实际上已加入域)？当然，如果机器没有加入域，函数应该返回 null，或空字符串，或机器的名称，或 "." 注意事项: NetGetJoinInformation Wi
javascript IP、域名、手机号码正则表达式验证代码
这个手机号码正则验证函数可以说是最新的都支持的，里面有详细的介绍说明，不论以后增加什么号段大家都非常容易的稍微修改一下即可。 javascript 手机号码正则表达式验证函数复制代码代码如下:
google-chrome - 检查*域名*中是否有拼写错误
我使用 Google 域在 Github Pages 上托管我的网站，在 Chrome 中的 iPhone 上运行完美但是在我的桌面上，Chrome(我的普通浏览器(我确实检查了缓存))或 Fire

首页

博学

6Ren·AI

商城

Python urlparse——提取没有子域的域名