gpt4 book ai didi

php - 从服务器python快速下载xml文件

转载 作者:太空宇宙 更新时间:2023-11-03 16:47:03 25 4
gpt4 key购买 nike

我正在从 clean-mx 下载网络钓鱼/病毒站点的大型数据库

网络钓鱼数据库 = http://support.clean-mx.de/clean-mx/xmlphishing.php

病毒库=http://support.clean-mx.de/clean-mx/xmlviruses.php

现在的问题是,这些 xml 文件每个大小约为 +30Mb,下载它们大约需要 1 分钟,我需要更快地下载它们......我使用 urllib.urlretrieve 下载它们。

我需要这些文件来构建包含这些数据库内的 url 的 xml 数据库,我尝试读取它们,希望它比使用 urllib.urlopen 下载它们更快,但它下载它们甚至更慢。

您是否有想法使用这些文件(下载或读取)来构建性能更快的数据库?

注意:只需要使用这些文件,我已经编写了快速构建数据库的代码

最佳答案

我尝试在 OS X 和 Linux(在虚拟机中运行)中通过 Firefox 下载病毒 XML,并使用优秀的 requests模块(我比 urllib 更喜欢它),并且所有方法都花费了很长时间来下载 47M 文件 - 事实上,一些进程卡住或崩溃。我有 60 Mbit/s 的互联网连接,从不受限制的服务器下载类似大小的文件通常只需要 10-15 秒。所以,我怀疑你的结果不会有太大改善,因为这似乎是服务器问题。我建议联系该网站的所有者,看看他们是否愿意与您合作来诊断连接问题。

编辑

好吧,这很奇怪。我重新启动了 Linux VM 并在终端中运行了以下命令:

import requests
url = "http://support.clean-mx.de/clean-mx/xmlviruses.php?"
r = requests.get(url).content
print(r)

下载不到 15 秒就完成了。所以,我根本不确定发生了什么......

关于php - 从服务器python快速下载xml文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36220561/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com