python - 使用 BeautifulSoup 进行网页抓取(Jupyter Notebook)-6ren

python - 使用 BeautifulSoup 进行网页抓取(Jupyter Notebook)

转载作者：行者123 更新时间：2023-12-01 00:22:18

24

4

下午好，

我对网络抓取还很陌生。我正在尝试从开源门户中获取数据集。只是想弄清楚如何抓取网站。我正在尝试从 data.toerismevlaanderen.be 中获取数据集这是我想要的数据集:https://data.toerismevlaanderen.be/tourist/reca/beer_bars

我总是遇到 http 错误:HTTP 错误 404:未找到

这是我的代码:

import requests
import urllib.request
import time
from bs4 import BeautifulSoup

url = 'https://data.toerismevlaanderen.be/'
response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')
soup.findAll('a')
one_a_tag = soup.findAll('a')[35]
link = one_a_tag['href']

download_url = 'https://data.toerismevlaanderen.be/'+ link
urllib.request.urlretrieve(download_url,'./'+link[link.find('/tourist/reca/beer_bars_')+1:]) 

time.sleep

我做错了什么？

最佳答案

问题如下:

link = one_a_tag['href']
print(link)

这将返回一个链接:https://data.toerismevlaanderen.be/

然后，您可以通过以下操作将此链接添加到download_url:

download_url = 'https://data.toerismevlaanderen.be/'+ link

因此，如果您print(download_url)，您将得到:

https://data.toerismevlaanderen.be/https://data.toerismevlaanderen.be/

这不是一个有效的网址。

根据评论更新

问题是您抓取的文本中没有tourist/activities/breweries。如果你写:

for link in soup.findAll('a'):
  print(link.get('href'))

你会看到所有的a href标签。没有一个包含旅游/事件/啤酒厂

但是如果您只想要链接data.toerismevlaanderen.be/tourist/activities/breweries，您可以这样做:

download_url = link + "tourist/activities/breweries"

关于python - 使用 BeautifulSoup 进行网页抓取(Jupyter Notebook)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58876102/

24

4

0

文章推荐： r - 如何检查精确向量是否是列表中另一个向量的子集

文章推荐： azure - 如何在 azure 服务总线上发出队列大小警报

文章推荐： python - 搜索 csv 文件最快的方法是什么？

jupyter-notebook - Jupyter Notebook "Notebook changed"不断出现
我不断收到以下消息:“自上次打开或保存笔记本文件以来，磁盘上的笔记本文件已更改。您想用此处打开的版本覆盖磁盘上的文件，还是加载磁盘上的版本(重新加载页面) )？”在 Jupyter 笔记本上，即使我没
ipython-notebook - 如何在不启动内核的情况下使用 Ipython Notebook/Jupyter 打开 Notebook？
让我们假设，我想打开一个笔记本(即使用我的本地 Jupyter 实例)，但我不想用它启动关联的内核(即 Python)。我怎样才能做到这一点？可能的用例: 我只想从以前的计算中获得笔记本输出。我不想
jupyter-notebook - 将 ipython notebook 转换为 notebook 时隐藏一些单元格
在将 IPython 笔记本转换为笔记本时，我试图隐藏一些特定的单元格。我想在类里面使用笔记本，并希望从包含问题和答案的主笔记本生成“练习”笔记本。 This post非常有帮助，但由于某种原因，使用
jupyter-notebook - 尝试将 Jupyter Notebook 下载为 PDF 时无法运行 "xelatex .\notebook.tex -quiet"命令
在过去的几个小时里，我一直在试图弄清楚如何将我的 Jupyter Notebook 下载为 pdf。我已经下载了 MiKTeX 并重新安装了 anaconda。下面的完整错误 500内部服务器错误错
jupyter-notebook - 如何将文本文件上传到 ipython notebook
我想要一个完整的文件作为文本文件，而不仅仅是 IPython 笔记本中的一个单元格。我在 IPython notebook 中写了一些代码，现在我想测试它们，所以我尝试将一些文本文件作为原始数据上传
jupyter-notebook - 无法正确打印 jupyter notebook
我在我的办公室电脑上工作，由于安全限制不允许我安装程序(比如 miktex，....)。所以我决定将我的笔记本导出为 .html。如您所见，渲染效果不佳: 一些代码被删减了很多空间被破坏了，有很大
jupyter-notebook - 如何在不打开网络浏览器的情况下从终端编辑 jupyter notebook？
如何在终端中编辑我的 jupyter notebook。我只是不喜欢在网络浏览器中打开 jupyter notebook。我用谷歌搜索，但每个答案都与我们如何直接从终端打开笔记本有关。最佳答案我建
Groovy Notebook 相当于 IPython Notebook
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve thi
jupyter-notebook - 如何共享 Jupyter Notebook？
我正在使用 Julia，但并不是很喜欢 IDE(更像是一个笔记本电脑)。所以我第一次使用 Jupyter(实验室和笔记本)。我从 Anaconda 启动了 Jupyter 并制作了我的笔记本。问题是
jupyter-notebook - Ipython notebook 不会在命令行上启动
我试图用 ipython notebook 在终端中打开 ipython它不会打开 ipython notebook。它给出了以下错误: | ~/documents/ud120-projects/da
jupyter-notebook - 如何从我的终端启动 jupyter notebook？
尝试从终端启动 jupyter notebook。我目前在正确文件夹中的终端上，并且安装了 python 3.5 和 conda。但它没有启动。最佳答案 Jupyter Notebooks 允许您打
jupyter-notebook - jupyter notebooks 中的持久绘图
我有 plotly plotly 的 jupyter 笔记本不会保留 session 之间的 plotly 。这是在基于官方 jupyter/datascience-notebook docker
jupyter-notebook - Jupyter Notebook - 无法连接到内核
我试过使用 pip3 install jupyter 安装 jupyter notebook。每次我启动一个新的 jupyter notebook 时，notebook 都无法连接到内核。请参阅下面的
jupyter-notebook - jupyter notebook 中的原始单元格是什么
我懂代码，懂 Markdown。我已阅读 this Raw cells article ，但看不出太多。什么是深奥的 NBConvert ? 请投点灯。最佳答案更新的文档位于 https://
jupyter-notebook - Jupyter Notebook:用于保存当前笔记本的命令？
运行代码后，我可以自动将笔记本保存为HTML。但是，有时结果生成速度太快，因此输出HTML在最后一个单元格中没有输出。我想知道是否可以告诉文件进行自我保存？就像是 # In last cell c
ipython-notebook - Jupyter Notebook 扩展加载失败
我在最近安装了 anaconda 的虚拟机中运行 Ubuntu 14.04。我使用 conda 安装了 jupyter 笔记本。我已经按照我可以在网上找到的所有文档来安装笔记本扩展，但它们无法加载并显
ipython-notebook - 使用命令行参数批量执行 iPython Notebook？
我正在使用 nbconvert通过命令行执行 iPython notebook(如 this answer ): ipython nbconvert --to=html --ExecutePrepro
jupyter-notebook - Jupyter Notebook 检查点文件有什么用？
除了原始 Jupyter Notebook 文件(.ipynb 文件)之外，有时我还会得到一个检查点 .ipynb 文件，该文件似乎直接链接到原始。 ipynb 文件。这些检查点文件的用途是什么？
jupyter-notebook - 从远程服务器持续使用 Jupyter Notebook
我使用 ssh -L 连接到远程服务器，但如果我合上笔记本电脑盖子或连接丢失，jupyter 笔记本就会断开连接。重新连接到远程服务器后，“最后一个” session 丢失。如何才能使其持久？sc
jupyter-notebook - 将表情符号代码导入 jupyter notebooks
Jupyter 笔记本支持 Markdown 单元格，但它似乎不支持表情符号代码。我想一种方法可能是使用 html 导入图标，如 fontawesome 有人有解决方法吗？编辑:直接在 jupyte

首页

博学

6Ren·AI

商城

python - 使用 BeautifulSoup 进行网页抓取(Jupyter Notebook)