python - 如何抓取嵌入的链接和表格信息-6ren

python - 如何抓取嵌入的链接和表格信息

转载作者：行者123 更新时间：2023-12-01 07:47:22

我正在尝试抓取 this website 上可用数据集的信息.

我想收集资源的 URL 以及至少数据集的标题。

使用this resource例如，我想捕获“转到资源”中嵌入的 URL 以及表中列出的标题:

我已经创建了一个基本的抓取工具，但它似乎不起作用:

import requests
import csv
from bs4 import BeautifulSoup

site = requests.get('https://data.nsw.gov.au/data/dataset');
data_list=[]

if site.status_code is 200:
    content = BeautifulSoup(site.content, 'html.parser')
    internals = content.select('.resource-url-analytics')
    for url in internals:
        title = internals.select=('.resource-url-analytics')[0].get_text()
        link = internals.select=('.resource-url-analytics')[0].get('href')
        new_data = {"title": title, "link": link}
        data_list.append(new_data)
    with open ('selector.csv','w') as file:
            writer = csv.DictWriter(file, fieldnames = ["dataset", "link"], delimiter = ';')
            writer.writeheader()
            for row in data_list:
                writer.writerow(row)

我想将输出写入 CSV，其中包含 URL 和标题列。

这是所需输出的示例

非常感谢您的帮助

最佳答案

看看 API for the datasets这可能是最简单的方法。

同时，您可以通过以下方法从这些页面获取 ID 级别的 API 链接，并将所有包的完整包信息存储在一个列表 data_sets 中，并且仅存储感兴趣的信息在另一个变量中(结果)。请务必查看 API 文档，以防有更好的方法 - 例如，如果可以批量提交 id，而不是按 id 提交，那就太好了。

下面的答案是利用文档中详细说明的端点，该端点用于获取数据集、资源或其他对象的完整 JSON 表示形式

获取着陆页上当前的第一个结果:

Guyra 植被 1:25000 map VIS_ID 240。

我们希望父级 h3 的最后一个子级 a 具有类 .dataset-item 的父级。在下面，选择器之间的空格是 descendant combinators .

.dataset-item h3 a:last-child

您可以将其缩短为 h3 a:last-child 以获得较小的效率提升。

这种关系可靠地选择页面上的所有相关链接。

继续这个示例，访问第一个列出的项目的检索 url，我们可以使用 api 端点(检索与此包相关的 json)通过包含、*、运算符的 attribute=value 选择器找到 id。我们知道这个特定的 api 端点有一个公共(public)字符串，因此我们对 href 属性值进行子字符串匹配:

[href*="/api/3/action/package_show?id="]

域名可能会有所不同，并且某些检索到的链接是相对的，因此我们必须测试是否相对并添加适当的域名。

该比赛的首页 html:

<小时/>

注释:

data_sets 是一个包含每个包的所有包数据的列表，内容很广泛。我这样做是为了防止您有兴趣查看这些包中的内容(除了查看 API 文档之外)
您可以通过以下方式从页面上的 soup 对象获取总页数

   num_pages = int(soup.select('[href^="/data/dataset?page="]')[-2].text)

您可以更改更少页面的循环。

Session 对象用于efficiency of re-using connection 。我确信还有其他方面需要改进。特别是，我会寻找任何减少请求数量的方法(例如为什么我提到寻找批处理 ID 端点)。
返回的包中不能有一个或多个资源 URL。参见示例here 。您可以编辑代码来处理此问题。

<小时/>

Python:

from bs4 import BeautifulSoup as bs
import requests
import csv
from urllib.parse import urlparse

json_api_links = []
data_sets = []

def get_links(s, url, css_selector):
    r = s.get(url)
    soup = bs(r.content, 'lxml')
    base = '{uri.scheme}://{uri.netloc}'.format(uri=urlparse(url))
    links = [base + item['href'] if item['href'][0] == '/' else item['href'] for item in soup.select(css_selector)]
    return links

results = []
#debug = []
with requests.Session() as s:

    for page in range(1,2):  #you decide how many pages to loop
        
        links = get_links(s, 'https://data.nsw.gov.au/data/dataset?page={}'.format(page), '.dataset-item h3 a:last-child')

        for link in links:
            data = get_links(s, link, '[href*="/api/3/action/package_show?id="]')
            json_api_links.append(data)
            #debug.append((link, data))
    resources = list(set([item.replace('opendata','') for sublist in json_api_links for item in sublist])) #can just leave as set
    
    for link in resources:
        try:
            r = s.get(link).json()  #entire package info
            data_sets.append(r)
            title = r['result']['title'] #certain items

            if 'resources' in r['result']:
                urls = ' , '.join([item['url'] for item in r['result']['resources']])
            else:
                urls = 'N/A'
        except:
            title = 'N/A'
            urls = 'N/A'
        results.append((title, urls))

    with open('data.csv','w', newline='') as f:
        w = csv.writer(f)
        w.writerow(['Title','Resource Url'])
        for row in results:
            w.writerow(row)

<小时/>

所有页面

(运行时间非常长，因此请考虑线程/异步):

from bs4 import BeautifulSoup as bs
import requests
import csv
from urllib.parse import urlparse

json_api_links = []
data_sets = []

def get_links(s, url, css_selector):
    r = s.get(url)
    soup = bs(r.content, 'lxml')
    base = '{uri.scheme}://{uri.netloc}'.format(uri=urlparse(url))
    links = [base + item['href'] if item['href'][0] == '/' else item['href'] for item in soup.select(css_selector)]
    return links

results = []
#debug = []

with requests.Session() as s:
    r = s.get('https://data.nsw.gov.au/data/dataset')
    soup = bs(r.content, 'lxml')
    num_pages = int(soup.select('[href^="/data/dataset?page="]')[-2].text)
    links = [item['href'] for item in soup.select('.dataset-item h3 a:last-child')]

    for link in links:     
        data = get_links(s, link, '[href*="/api/3/action/package_show?id="]')
        json_api_links.append(data)
        #debug.append((link, data))
    if num_pages > 1:
        for page in range(1, num_pages + 1):  #you decide how many pages to loop
            
            links = get_links(s, 'https://data.nsw.gov.au/data/dataset?page={}'.format(page), '.dataset-item h3 a:last-child')

            for link in links:
                data = get_links(s, link, '[href*="/api/3/action/package_show?id="]')
                json_api_links.append(data)
                #debug.append((link, data))
        
        resources = list(set([item.replace('opendata','') for sublist in json_api_links for item in sublist])) #can just leave as set
 
        for link in resources:
            try:
                r = s.get(link).json()  #entire package info
                data_sets.append(r)
                title = r['result']['title'] #certain items

                if 'resources' in r['result']:
                    urls = ' , '.join([item['url'] for item in r['result']['resources']])
                else:
                    urls = 'N/A'
            except:
                title = 'N/A'
                urls = 'N/A'
            results.append((title, urls))

    with open('data.csv','w', newline='') as f:
        w = csv.writer(f)
        w.writerow(['Title','Resource Url'])
        for row in results:
            w.writerow(row)

关于python - 如何抓取嵌入的链接和表格信息，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56406039/

文章推荐： f# - FsUnit 和检查 float 的相等性

文章推荐： scala - 基于最大日期记录的 Spark 过滤器

文章推荐： regex - 如何验证欧盟社会安全号码？

文章推荐： macos - 在 mac 上使用 macports 安装 gdal 时出错

Android MediaPlayer 信息/警告 (703, 0) 信息/警告 (701, 0) 慢速 wifi 或数据连接
03-25 05:52:15.329 8029-8042/com.mgh.radio W/MediaPlayerNative: info/warning (703, 0) 03-25 05:52:15
c# - FrameworkElementFactory 信息
我一直在 Internet 上到处寻找关于 FrameworkElementFactory 类的适当文档，但我似乎找不到有关它的适当教程或有用信息。请问对这个问题了解更多的人可以给我更多的信息吗？这
c - 如何在线程之间发送变量/信息
我需要知道一个线程在进入等待状态之前如何将其ID发送到另一个线程。我想传递一个带有其ID的变量，但我不知道该怎么做。最佳答案如果只有一个线程及其父线程，则可以使用全局变量，因为它们在所有线程之间共
rust - 如何阅读打印品前的文字!信息？
我正在尝试制作一个程序，该程序可以读取命令行上的所有单词，然后将其打印在新行上，而我想要做的是这样的: Some text: hello 但是相反，我得到了这样的东西: Some text: Hell
rabbitmq - 如何获取有关rabbitmq连接操作的详细日志/信息？
我有一个连接到rabbitmq服务器的python程序。当该程序启动时，它连接良好。但是当rabbitmq服务器重新启动时，我的程序无法重新连接到它，并留下错误“Socket已关闭”(由kombu产生
kubernetes - 如何在CD输出中包含Pod启动日志/信息？
我正在设置CI / CD管道。部署步骤运行以下命令: kubectl apply -f manifest.yml --namespace kubectl rollout status Deploym
java - 如何在java中使用ews从电子邮件中获取 "To"信息
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 4 年前。 Improve this ques
SVN 信息 - 我上次更改的日期在我的文本上次更新日期之前
这是我在文件上运行 svn info 时输出的一部分: Last Changed Author: [user] Last Changed Rev: 269612 Last Changed Date:
java - android制作一个音乐应用程序访问sd卡以获取音乐数据帮助/信息
所以我正在构建这个音乐应用程序，到目前为止它只扫描 SD 卡内的特定文件夹。这将返回路径，然后播放它们。几个小时前我得知android系统中有一个媒体文件数据库所以我想知道这个媒体文件数据库是否存
python - 如何在树状图上添加%信息？
我正在绘制树形图，并且想知道如何绘制树类的相对百分比，即 A组=100 B地=30 C地=50 D 地 =20 然后，在图中，应该添加: A 组“50%” B 组“15%” 等在其“Group X”标
php - 如何在用户首次登录时显示教程/信息？
我正在构建一个社交网站，我想知道如何在用户首次登录时显示交互式教程和信息。比如只有在第一次登录时，用户才会被要求在他们的个人资料中填写更多信息。我怎样才能通过 php 和 mysql 实现这一点？例子
java servlet 信息
我是 java servlet 的新手。我研究了一些关于 servlet 的代码，但我真的很想知道更多基本的东西以及它是如何工作的。我只是想知道什么类型的 Material /内容可以从 java s
mysql - 避免多个内部联接从同一个表添加新列(信息)
我想知道是否有办法为 user_id、sender_user_id 和 recipient_user_id 提供 name 信息来自 this fiddle 中的模式. 我现在唯一能想到的办法就是做这
c++ - 存储2人c++信息
这是我存储2个大学生信息的源代码。我想从输入中获取每个人的姓名、姓氏、ID 和 5 分，然后在输出中显示它们。我在输出中显示分数时遇到问题。请帮忙 #include using namespace
python - 从图像中提取统计数据/信息
假设我有一张带有条形图的图像，如下所示: 我想提取条形图和标签的值，除了训练 ML 模型之外，还有其他方法吗？我有一堆图像，我为其生成了图表和一些描述。我目前正尝试仅从我能够做到的描述中提取信息，但
iphone - GKTurnBasedParticipant 信息
有没有办法从 GKTurnBasedParticipant 对象中检索玩家的名字？似乎除了根据类引用的难看的 playerID 之外，没有办法显示有关游戏玩家的相关信息。还是我遗漏了什么？谢谢...
c# - KeyNotFoundException 信息
我有一个随机抛出“KeyNotFoundException”的 C# Silverlight 应用程序。我不知道找不到什么 key 。这让我想到了两个问题: KeyNotFoundException
iOS获取本地音频文件(属性/信息)
本文实例为大家分享了ios获取本地音频文件的具体代码，供大家参考，具体内容如下获取本地音频文件地址： ?
Sql查询MySql数据库中的表名和描述表中字段(列)信息
下面为大家介绍利用SQL查询语句获取Mysql数据库中表的表名，表描述、字段ID、字段名、数据类型、长度、精度、是否可以为null、默认值、是否自增、是否是主键、列描述 1、查询表信息（表名/表
c# - 是否有可能获得例如代码中的位置成员(member)信息？
问题有没有办法获取代码中使用属性的位置，或声明成员变量的位置？我不是在寻找解决此问题的方法，只是寻求一个简单的答案，无论这在技术上是否可行。一些背景信息我已经定义了一个属性，该属性使用提供给属

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何抓取嵌入的链接和表格信息

所有页面