python - 如何使用 BeautifulSoup 从相对网站路径获取完整网站路径-6ren

python - 如何使用 BeautifulSoup 从相对网站路径获取完整网站路径

转载作者：太空宇宙更新时间：2023-11-03 16:24:52

25

4

我正在实现一个网络爬虫，我正在尝试解析 HTML 中的链接。我可以遵循完整的网站路径，但某些相对路径有点奇怪。

我可以遵循完整路径，即 http://foo.com/bar/baz我能够找到一种遵循相对路径的方法，即 /qux通过使用以下函数:

def baseUrl(url):
    u = urlparse.urlparse(url)
    return "{}://{}{}/".format(u.scheme, u.netloc, '/'.join(u.path.split('/')[:-1]))

def fullUrl(url, parent):
    u = urlparse.urlparse(url)
    if u.scheme:
        return url.split("/#")[0]
    else:
        return "{}{}".format(baseUrl(parent), url).split("/#")[0]

但有时，网站网址是http://foo.com/bar/baz ，在 HTML 中，有类似 <a href='/bar/qux' 的内容。。目标网址应为 http://foo.com/bar/qux ，但我的代码输出 http://foo.com/bar//bar/qux .

有谁知道一种通用方法来找出两个 URL 之间的哪些部分匹配，以便从相对路径中找出完整路径？

最佳答案

我一直做的并且到目前为止对我有用的就是调用 urljoin()与当前页面 URL:

>>> from urlparse import urljoin
>>> urljoin("http://foo.com/bar/baz", "/bar/qux")
'http://foo.com/bar/qux'

关于python - 如何使用 BeautifulSoup 从相对网站路径获取完整网站路径，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38079120/

25

4

0

文章推荐： ruby-on-rails - delayed_job 在系统重启时工作的数量

文章推荐： c# - 在 XSLT 中组合相同的子元素

文章推荐： python - 如何在Python中比较2个文件时忽略字段数据

沿框架旋转点的算法(相对)
我们有一个应用程序，我们可以在其中设计标签，然后根据设计创建图像并将其发送到打印机。图像在通过 TCP/IP 发送之前被制成字节流。简而言之，我们有一个旋转设置，可以自动计算标签上不同元素的位置。而
Javascript 相对 URL
我们在 IIS7 中有一个 MVC3 应用程序:http://mydomain.com/myapplication/ javascript 中的相对 URL 是什么: http://mydomain.
javascript - 相对+绝对定位
我的例子:http://jsfiddle.net/kwnk8qup/ 我的代码: container(父 div
绝对定位后的 CSS 相对
如何将元素放置在右侧，并保持后面元素的持久位置？我想在没有 Efficiently ... 的情况下将 text-align: right 对齐到右侧，并保留 t2 和 t3 元素之间的空间。当我
Python 相对 __import__
假设我有一个包含以下文件的模块包。一个空文件 C:\codes\package\__init__.py 和一些重要文件: 一个位于C:\codes\package\first.py def f():
C++ MOUSEEVENTF_MOVE 相对
我正在尝试使用以下代码在屏幕上相对移动光标: input.type = INPUT_MOUSE; ZeroMemory(&input, sizeof(input)); input.mi.mouseDa
CSS 相对 + float
我排列了 3 个 div；中心 div 有许多 position:absolute 图像(它们重叠——一次显示一个图像；其余的是 display:none;对于 jQuery 交叉淡入淡出，这不是密切
sql - 选择具有最高(相对)时间戳的所有行
我在 SQL 2000 数据库中有以下简化的表结构: ID AppName Key Value EffectiveDate -- ------- ----- ------- ---
Nginx 相对 URL 到绝对重写规则？
给定以下配置: server { listen 80; server_name site.com; location /proxy { proxy_pa
wpf - 相对 URI 路径无法正常工作
我正在使用这些方法动态加载图像和资源目录，但它们并不适用于所有情况 new Uri(@"pack://application:,,/Images/lession_tab.png"); 此方法不适用于图
sqlite - SQLite更新ONE记录非常(相对)缓慢
在插入/更新许多行时，我知道SQLite的“问题”，但事实并非如此。我正在更新包含约250条记录的表中的ONE一行（由PK索引）中的ONE字段。查询通常需要200毫秒左右的时间。听起来很少，但很大。
java - 如何在android中滑动布局(线性/相对..)
如何向左或向右滑动线性布局。在该线性布局中，默认情况下我有一个不可见的删除按钮，还有一些其他小部件，它们都是可见状态，当向左滑动线性布局时，我需要使其可见的删除按钮，当向右滑动时，我需要隐藏该删除按钮
OpenGL - GlVertex 相对/绝对位置
Imagen 我有一个 2D 点 (x,y) 列表，它们在我的简单游戏中描述了 2D 地形。然后我让 glVertex() 在 GL_POINTS 模式下绘制所有这些点。然后我有一个球，它也有它的
php - 选择(相对)较大的数据库表
我正在使用 Google CloudSQL 并具有以下简单代码: ;dbname=', 'root', '' ); $db->setAttribute ( PDO::ATTR_ERRMODE, PDO
java - 路径、相对、直接
我知道有几个类似的问题，但是，其中的示例并没有说明问题，或者我无法从中获利 - 我真可耻。所以我的问题是在带有 GUI 的简单应用程序中加载图像。例如: 我在 "D:\javaeclipseprog
html - 相对 div 与父表格单元格重叠
我对放置在表格单元格内的 div 有疑问。单元格具有固定的高度和 div 相对于 height:100% 定位。 jsfiddle example td { height:80px;
python - 相对 XPath 错误地选择了循环中的相同元素
我正在抓取一些数据。我需要的数据点之一是日期，但包含此数据的表格单元格仅包括月份和日期。幸运的是，年份被用作对表格进行分类的标题元素。出于某种原因，year = table.find_elemen
html - 相对 DIV 宽度和高度
我想要一个 DIV，最大 90% 高度或 90% 宽度。我只想将图片作为背景放入 DIV 中，并且完整的 svg-image 应该是可见的。在移动设备和桌面设备上。 CSS: .camera {
html - CSS 相对-绝对位置
我是网页设计新手，想了解 CSS 中定位的概念。我对相对和绝对定位元素有一些了解。在下面的 fiddle 中，我有一个作为的父级.当我做 p position:absolute ，边框崩溃不像我
html - 动态调整图像大小，相对/绝对定位？
我在调整图像高度相对于浏览器窗口的大小时遇到了一些严重的困难——宽度可以很好地调整大小，但高度保持不变。我尝试过 height: 100% 和 height: auto，以及 height: 10

首页

博学

6Ren·AI

商城

python - 如何使用 BeautifulSoup 从相对网站路径获取完整网站路径