python - 使用python从内网下载文件-6ren

python - 使用python从内网下载文件

转载作者：可可西里更新时间：2023-11-01 10:36:20

27

4

我想从我的 Intranet 下载一系列 pdf 文件。我可以在我的网络浏览器中毫无问题地查看文件，但是当尝试通过 python 自动提取文件时，我遇到了问题。通过在我办公室设置的代理交谈后，我可以使用这个很容易地从互联网上下载文件 answer :

url = 'http://www.sample.com/fileiwanttodownload.pdf'

user = 'username'
pswd = 'password'
proxy_ip = '12.345.56.78:80'
proxy_url = 'http://' + user + ':' + pswd + '@' + proxy_ip
proxy_support = urllib2.ProxyHandler({"http":proxy_url})
opener = urllib2.build_opener(proxy_support,urllib2.HTTPHandler)
urllib2.install_opener(opener)

file_name = url.split('/')[-1]
u = urllib2.urlopen(url)
f = open(file_name, 'wb')
f.close()

但是无论出于何种原因，如果 url 指向我的 Intranet 上的某些内容，它就不会工作。返回以下错误:

Traceback (most recent call last):

  File "<ipython-input-13-a055d9eaf05e>", line 1, in <module>
    runfile('C:/softwaredev/python/pdfwrite.py', wdir='C:/softwaredev/python')

  File "C:\Anaconda\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py", line 585, in runfile
    execfile(filename, namespace)

  File "C:/softwaredev/python/pdfwrite.py", line 26, in <module>
    u = urllib2.urlopen(url)

  File "C:\Anaconda\lib\urllib2.py", line 127, in urlopen
    return _opener.open(url, data, timeout)

  File "C:\Anaconda\lib\urllib2.py", line 410, in open
    response = meth(req, response)

  File "C:\Anaconda\lib\urllib2.py", line 523, in http_response
    'http', request, response, code, msg, hdrs)

  File "C:\Anaconda\lib\urllib2.py", line 442, in error
    result = self._call_chain(*args)

  File "C:\Anaconda\lib\urllib2.py", line 382, in _call_chain
    result = func(*args)

  File "C:\Anaconda\lib\urllib2.py", line 629, in http_error_302
    return self.parent.open(new, timeout=req.timeout)

  File "C:\Anaconda\lib\urllib2.py", line 410, in open
    response = meth(req, response)

  File "C:\Anaconda\lib\urllib2.py", line 523, in http_response
    'http', request, response, code, msg, hdrs)

  File "C:\Anaconda\lib\urllib2.py", line 448, in error
    return self._call_chain(*args)

  File "C:\Anaconda\lib\urllib2.py", line 382, in _call_chain
    result = func(*args)

  File "C:\Anaconda\lib\urllib2.py", line 531, in http_error_default
    raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)

HTTPError: Service Unavailable

在下面的代码中使用 requests.py，我可以成功地从互联网上下载文件，但是当我试图从我办公室的内联网上下载一个 pdf 文件时，我只是收到一个连接错误发送回我在 html 中。运行以下代码:

import requests

url = 'www.intranet.sample.com/?layout=attachment&cfapp=26&attachmentid=57142'

proxies = {
  "http": "http://12.345.67.89:80",
  "https": "http://12.345.67.89:80"
}

local_filename = 'test.pdf'
r = requests.get(url, proxies=proxies, stream=True)
with open(local_filename, 'wb') as f:
    for chunk in r.iter_content(chunk_size=1024): 
        print chunk
        if chunk:
            f.write(chunk)
            f.flush()

返回的html:

Network Error (tcp_error) 

A communication error occurred: "No route to host"
The Web Server may be down, too busy, or experiencing other problems preventing it from responding to requests. You may wish to try again at a later time.

For assistance, contact your network support team.

是否有一些网络安全设置可以阻止网络浏览器环境之外的自动请求？

最佳答案

将 opener 安装到 urllib2 中不会影响请求。您需要使用请求自身对代理的支持。将它们在 proxies 参数中传递给 get 应该就足够了，或者您可以设置 HTTP_PROXY 和 HTTPS_PROXY环境变量。参见 http://docs.python-requests.org/en/latest/user/advanced/#proxies

import requests

proxies = {
  "http": "http://10.10.1.10:3128",
  "https": "http://10.10.1.10:1080",
}

requests.get("http://example.org", proxies=proxies)

关于python - 使用python从内网下载文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24520133/

27

4

0

文章推荐： database - 使用聚合管道对新计算的数组字段进行排序和连接

文章推荐： node.js - 通过 nodejs 查询 mongodb 显示空结果？

文章推荐： windows - ExternalProject_Add CONFIGURE_COMMAND 不能包含双引号

.net - 体面的低占用空间Web服务器？ (。网)
我正在寻找的服务器是: 轻量级，非 buggy ，支持.NET，在客户端上运行以进行测试，在Windows上运行 Cassinni太过马车，IIS太昂贵，Apache很难安装，XSP仅是lin
.net - 从调试版本中检测发行版本的最佳方法？。网
所以我有大约10个短的css文件，可以与mvc应用程序一起使用。有像 error.css login.css 等等... 仅有一些非常短的CSS文件，这些文件使更新和编辑变得容易(至少对我而言)。我
.net - UI自动化中如何调用快捷键？/。网
我正在编写程序来自动化 win32 表单。我正在使用 Microsoft UI 自动化库。我不知道如何获取和调用该表单上的预定义快捷键。现在我只需获取 MenuItem 的 AutomationEle
.net - 如何在代码中将鼠标光标设置为混合沙漏和箭头？ (。网)
我有一个在后台线程上运行的及时操作。运行时，我当前将光标置于等待状态: Mouse.OverrideCursor = Cursors.Wait 我刚刚实现了一项功能，允许用户在厌倦等待时单击“取消”按
.net - 如何找到所有可能直接或间接调用给定方法的单元测试？ (。网)
如何找到所有可能直接或间接调用给定方法的单元测试？当我更改方法时，我希望知道要运行的最佳测试；必须有一个工具! 因为我们有很多接口(interface)，所以我对所有调用接口(interface)方法
.net - 类是盒装的吗？。网
我想知道，一个类会被装箱吗？我一直假设每个类都有一个虚拟表，可以用来标识类，所以它需要装箱吗？最佳答案只有值类型(结构)被装箱。类实例不会被装箱。关于.net - 类是盒装的吗？。网，我们在S
c# - 如何在浏览器控件中模拟点击事件？。网
所以接下来有一个按钮调用(页面)。它的 href 链接是 site/blah/#。所以我知道它真正运行的 javascript 代码。在我解析完第一页后，我想解析下一页。我如何模拟鼠标点击，以便我可以
c# - 泛型基类覆盖非泛型基类函数模式？ (。网)
我想知道是否有人对解决以下设计问题有好的建议/模式。我有一个命令类的层次结构。在最抽象的层面上，我有一个 ICommand 接口(interface)。执行 ICommand 的 RunCommand
c# - 如何从资源中获取文件作为流？ (。网)
我在资源(xsd 文件)中有几个文件可用于验证收到的 xml 消息。我使用的资源文件名为 AppResources.resx，它包含一个名为 clientModels.xsd 的文件。当我尝试使用这样
c# - 以图形方式显示正在执行的代码？。网
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求提供代码的问题必须表现出对所解决问题的最低限度理解。包括尝试过的解决方案、为什么它们不起作用，以及预
c# - 在 .网
(最后的简短版本) 我目前正在开发的软件需要跟踪任意数量的 MS Office 文件，现在需要提供将所有这些文件一起打印的功能，以及一些应用程序数据(可能会发送到打印机作为 .xps、.html 或
c# - 在没有命名空间或程序集的情况下查找要按名称实例化的类？ (。网)
我想在不指定命名空间或程序集的情况下按名称(字符串)实例化一个类。像这样(Unity 语法): var processor = container.Resolve("SpecialProcessor"
c# - 计算整数十进制长度的最快方法？ (。网)
我有一些代码可以对 64 位整数进行大量比较，但是它必须考虑数字的长度，就好像它被格式化为字符串一样。我无法更改调用代码，只能更改函数。最简单的方法(除了 .ToString().Length 之外
c# - 这个简单的条件运算符会在编译时优化吗？ (。网)
使用遗留代码，我发现我有很多这样的语句(超过 500 个) bool isAEqualsB = (a == b) ? true : false; 这样重写有意义吗？ bool isAEqualsB =
c# - 为什么要为初始化器烦恼？ (。网)
我有这个: AudioPlayer player = new AudioPlayer(); player.Directory = vc.Directory; player.StartTime = vc
c# - 为什么这种双重检查锁定是正确的？ (。网)
我已经阅读了很多关于双重检查锁定的危险的文章，我会努力远离它，但话虽如此，我认为他们的阅读非常有趣。我正在阅读 Joe Duffy 的这篇关于使用双重检查锁定实现单例的文章: http://www.
c# - 什么时候对不可变类型使用值和引用类型？ (。网)
对于可变类型，值类型和引用类型之间的行为差异很明显: // Mutable value type PointMutStruct pms1 = new PointMutStruct(1, 2); P
c# - 移位比Java中的乘法和除法更快吗？。网？
关闭。这个问题需要更多 focused .它目前不接受答案。想要改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 6 年前。 Improve this q
cordova - Cordova 网::ERR_CACHE_MISS
我有一个 Cordova pp 我在 Controller 中调用post方法它可以在浏览器中工作，但是在构建和调试apk时出现错误 ionic.bundle.js:23826 POST http:
asp.net - 读取文件属性有多贵？。网
我们正在尝试将时间戳附加到某些 URL 以让内容缓存但在它们发生更改时更新它们。我们有代码可以归结为: DateTime ts = File.GetLastWriteTime(absPath); 其中

首页

博学

6Ren·AI

商城

python - 使用python从内网下载文件