- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我是 python 的新手。我正在尝试解析 URL 文件以仅保留域名。
我的日志文件中的一些 url 以 http://开头,一些以 www 开头。有些两者都开头。
这是我的代码中去掉 http://部分的部分。我需要添加什么才能同时查找 http 和 www.并删除两者?
line = re.findall(r'(https?://\S+)', line)
目前,当我运行代码时,只有 http://被删除。如果我将代码更改为以下内容:
line = re.findall(r'(https?://www.\S+)', line)
只有以两者开头的域才会受到影响。我需要代码更有条件。时间差
编辑...这是我的完整代码...
import re
import sys
from urlparse import urlparse
f = open(sys.argv[1], "r")
for line in f.readlines():
line = re.findall(r'(https?://\S+)', line)
if line:
parsed=urlparse(line[0])
print parsed.hostname
f.close()
我把原来的帖子误认为是正则表达式。它确实在使用 urlparse。
最佳答案
对于这种特定情况,它可能有点矫枉过正,但我通常会使用 urlparse.urlsplit
(Python 2)或 urllib.parse.urlsplit
(Python 3)。
from urllib.parse import urlsplit # Python 3
from urlparse import urlsplit # Python 2
import re
url = 'www.python.org'
# URLs must have a scheme
# www.python.org is an invalid URL
# http://www.python.org is valid
if not re.match(r'http(s?)\:', url):
url = 'http://' + url
# url is now 'http://www.python.org'
parsed = urlsplit(url)
# parsed.scheme is 'http'
# parsed.netloc is 'www.python.org'
# parsed.path is None, since (strictly speaking) the path was not defined
host = parsed.netloc # www.python.org
# Removing www.
# This is a bad idea, because www.python.org could
# resolve to something different than python.org
if host.startswith('www.'):
host = host[4:]
关于python - 找到 http ://and or www. 并从域中剥离。离开 domain.com,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14625693/
有没有一种快速的方法(无需显式循环遍历字符串中的每个字符)并剥离或保留它。在 Visual FoxPro 中,有一个函数 CHRTRAN() 可以很好地完成这项工作。它是 1:1 字符替换,但如果替换
在 python/pandas 中清理多类型数据框的值,我想修剪字符串。我目前正在按照两个说明进行操作: import pandas as pd df = pd.DataFrame([[' a '
通常情况下,我正在编写剥离新类型的唯一构造函数的函数,例如在以下函数中返回不是 Nothing 的第一个参数: process (Pick xs) = (\(First x) -> x) . mcon
我正在尝试逐渐将 AOSP 从其默认应用程序中剔除。但是我想知道我要应用的方法是否是正确 并且是最有效 . 在查看了这样做的方法后,我来到了以下 方法: (示例应用程序 - “package_name
使用时 hg log --template "{date|isodate} --- {rev}:{node|short} --- ... " 2011-10-07 19:25 -0400 --- 1:
我想在 mySQL 中创建数据库位置记录。我在选择框中有以下 html 字符串: Aka AkaArarimuAwhituBombayBuckland '> 我不想在数据库中手动输入记录,而是想去掉
我目前正在开发一个 Android 项目,其中我使用 Android NDK 用 C 语言进行一些计算。 只要我不运行 proguard,我的应用程序就可以正常工作,但是当我运行时,“reportPr
我想要一个通用的 .js 文件,对于页面上遇到的每个 form,在提交时,它会从所有 textarea、 中删除 HTML input 和 select 元素。我觉得我缺少一个基本技巧。 $("for
我正在尝试编写一个简单的 Python 脚本,它将文本文件作为输入,删除每个非文字字符,并将输出写入另一个文件中。通常我会采取两种方式: 使用正则表达式结合 re.sub 将每个非字母字符替换为空字符
我敢肯定这个问题以前有人问过,但我已经看过了,但找不到答案,或者我只是做错了什么。 HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.Htm
我有这行代码: var newmsg = $('' + ""+dateFormat(timesp)+ " | " + pseudo + ' : '); newmsg.find(".msg").text
我正在尝试从 Windows 路径中删除前缀。我尝试使用 strip_prefix 来做到这一点方法,但它失败了。您可以在 Rust Playground 上试用.即使在 RUST_BACKTRACE
使用这个 question ,我正在试验 substr 和 strrpos,但似乎无法正确处理。 我有一个来自 MySQL 数据库的名称列,其中包含名字和姓氏,如下所示: Doe, Jane A 现有
好的,我如何使用正则表达式删除 http AND/OR www 只是为了让 http://www.domain.com/ 进入 domain.com 假设 x 是任何类型的 TLD 或 cTLD 输入
我正在尝试从 this website 中抓取项目. 项目是:品牌、型号和价格。由于页面结构的复杂性,spider 使用了 2 个 xpath 选择器。 品牌和型号商品来自同一个 xpath,价格来自
这个问题在这里已经有了答案: 关闭 11 年前。
我有一个包含一些 html 标签的字符串,如下所示: " This is a test " 我想去掉标签之间的所有多余空格。我尝试了以下方法: In [1]: import re In [
我目前有一个 URL 列表 http://www.website.com/dynamic/download.ashx?id=123/12/12345 http://www.website.com/dy
我环顾四周,找不到一种简单/单行的方法来去除 numpy 数组中的空格:: print(type(p)) print(p) [{' SPL', 'GPU', 'bcc'} {'ANZ ', 'ROI
我有一个自定义共享点应用程序,其安全模型取决于 HTTP header 。当从移动设备发出请求时,每个请求都会添加一个名为 HTTP_RIM_DEVICE_EMAIL 的 http header 。我
我是一名优秀的程序员,十分优秀!