python - wget 与 python 的 urlretrieve-6ren

python - wget 与 python 的 urlretrieve

转载作者：太空狗更新时间：2023-10-29 19:30:15

24

4

我的任务是从网站下载 Gbs 的数据。数据以 .gz 文件的形式存在，每个文件大小为 45mb。

获取文件的简单方法是使用“wget -r -np -A files url”。这将以递归格式下载数据并镜像网站。下载速率非常高，4mb/秒。

但是，为了玩玩，我还使用 python 构建了我的 urlparser。

通过 Python 的 urlretrieve 下载非常慢，可能是 wget 的 4 倍。下载速率为 500kb/秒。我使用 HTMLParser 来解析 href 标签。

我不确定为什么会这样。有没有这方面的设置。

谢谢

最佳答案

可能是您的单位数学错误。

只是注意到 500KB/s (kilobytes) is equal to 4Mb/s (megabits) .

关于python - wget 与 python 的 urlretrieve，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/974741/

24

4

0

文章推荐： python - 如何检查两个字符串是否是彼此的字谜？

文章推荐： javascript - Angular 2在 route 传递参数

python - urlretrieve 似乎损坏了图像文件
我使用 urlretrieve 从网站上抓取图像。除了一个不那么小细节之外，效果很好。文件不可读。我尝试了几个网站，但结果都是一样的。我想知道是否应该表明它是二进制下载，但在文档中找不到任何提示。在网
Python URLRetrieve 限制速率并恢复部分下载
我正在使用 this thread 中的代码来限制我的下载速率。如何将部分下载恢复与速率限制代码结合起来？我发现的示例使用 urlopen 而不是 urlretrieve，并且 RateLimit
代理后面的Python urllib urlretrieve
我查看了 urllib 的文档，但我能找到的关于代理的所有内容都与 urlopen 相关。但是，我想从给定的 URL 下载 PDF 并将其存储在本地，但使用某个代理服务器。到目前为止，我的方法没有奏效
python - 加快 urllib.urlretrieve
我正在从网上下载图片，结果我需要下载很多图片。我正在使用以下代码片段的一个版本(实际上循环遍历我打算下载的链接并下载图片: import urllib urllib.urlretrieve(link,
python - 使用 urlretrieve() 下载文件到子文件夹
是否可以使用 urlretrieve() 将某些内容下载到子文件夹中，而无需以绝对但相对的方式表达？例如: urllib.request.urlretrieve(url, '/downloads/20
python - 下载文件时 urlretrieve 挂起
我有一个非常简单的脚本，它使用 urllib 检索一个 zip 文件并将其放在我的桌面上。该 zip 文件只有几 MB，下载时间不长。但是，脚本似乎并没有完成，它只是挂起。有没有办法强制关闭urlre
python - urllib.urlretrieve 编码不保留
我使用的是 python 3.4。当我使用urllib.request.urlretrieve(link, filename="file.html")时在 utf-8 文件上，生成的 file.ht
python - urllib.urlretrieve 的代理设置
我正在使用 urllib.urlretrieve 以匿名模式下载远程 FTP 站点上的文件。 ftp://ftp.{DOMAIN}/register/{FOLDER1}/{FOLDER2}/{FOLD
Python:urlretrieve PDF 下载
我在 Python 中使用 urllib 的 urlretrieve() 函数来尝试从网站上获取一些 pdf。它已经(至少对我而言)停止工作并且正在下载损坏的数据(15 KB 而不是 164 KB)。
Python urllib.urlretrieve 和用户代理
我正在从网络设备中检索 xml 文件。如果我没有指定用户代理，它会以不带 html 标签的不同格式返回文件。导入urllib urllib.urlretrieve (url, file_save_n
python - 如何使用带有 urlretrieve 的进度条模块
我的 pyhton3 脚本使用 urlretrieve 从互联网上下载了很多图片，我想添加一个带有完成百分比和每次下载的下载速度。 progressbar模块似乎是一个很好的解决方案，但尽管我已经查
python - 将从 Urlretrieve 下载的文件保存到另一个文件夹 other
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求提供代码的问题必须表现出对所解决问题的最低限度理解。包括尝试过的解决方案、为什么它们不起作用，以及预
python - Urlretrieve 和用户代理？ - Python
我正在使用 urllib 模块中的 urlretrieve。我似乎找不到如何向我的请求添加用户代理描述。 urlretrieve 可以吗？还是我需要使用其他方法？最佳答案首先，设置版本: url
python - 使用 urllib.urlretrieve() 保存图像
我正在尝试访问以下link通过我的脚本并下载出现的图表。我正在使用已接受的响应 here 来实现它但是当我尝试打开该文件时，出现错误:文件“test.png”无法打开，因为它是空的。这是我的代码片
python - 为使用 urllib.urlretrieve 下载的文件添加时间戳
我正在使用 urllib.urlretrieve 下载文件，我想添加一些内容以在下载前检查更改。我已经有如下内容: import urllib urllib.urlretrieve("http://w
python - 如何确保 urllib.urlretrieve 以非交互方式运行？
有时 urllib.urlretrieve 会提示用户输入用户名和密码。坦率地说，这令人惊讶，因为我预计 urllib.urlretrieve 是非交互式的。是否可以让它在需要身份验证时简单地引发
python - 如何通过Python urllib.urlretrieve()下载flickr中的图像？
我有一个问题，当从 flickr.com 下载图像时，python 函数 urllib.urlretrieve() 总是返回错误 [Errno socket error] (10060, 'Opera
python - 用什么命令代替 urllib.request.urlretrieve？
我目前正在编写一个从 URL 下载文件的脚本 import urllib.request urllib.request.urlretrieve(my_url, 'my_filename') 文档 ur
python - 如何知道 urllib.urlretrieve 是否成功？
urllib.urlretrieve 即使远程http服务器上不存在该文件，它也会静默返回，它只是将一个html页面保存到命名文件中。例如: urllib.urlretrieve('http://go
python - request.urlretrieve 在 PythonAnywhere 中作为计划任务运行时失败
我有一个 .py 脚本，当我在控制台中运行它时它可以工作，但当我将它安排为自动任务时似乎会失败。该脚本使用 urllib.request (我确保将 Hashbang 设置为运行支持该包的 Pytho

首页

博学

6Ren·AI

商城

python - wget 与 python 的 urlretrieve