gpt4 book ai didi

Python urllib request模块发送请求实现过程解析

转载 作者:qq735679552 更新时间:2022-09-29 22:32:09 25 4
gpt4 key购买 nike

CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章Python urllib request模块发送请求实现过程解析由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.

1.Request()的参数 。

import urllib.request 。

request=urllib.request.Request('https://python.org') response=urllib.request.urlopen(request) print(response.read().decode('utf-8')) 。

通过构造这个数据结构,一方面可以我们可以将请求独立成一个对象,另一方面可以更加丰富和灵活地配置参数.

它的构造方法如下:

class.urllib.request.Request(url,data=None,headers={},origin_rep_host=None,unverifiable=False,method=None) 。

参数:

1.url必传参数 。

2.data,必须传bytes类型。如果是字典,先使用urllib.parse里的urlencode() 。

3.headers,是一个字典,请求头,直接构造或者用add_header()方法添加 。

4.origin_rep_host,请求方的名称或者ip地址 。

5.unverifiable,默认为false,表示这个请求是否无法验证。如果没有抓取的权限,此时值就是true.

6.method,用来指示请求使用的方法.

尝试传入多个参数构建请求:

  1. from urllib import request,parse
  2.  
  3. url='http://httpbin.org/post'
  4. headers={
  5. 'Url-Agent':'Mozilla/4.0(compatible;MSIE 5.5;Windows NT)',
  6. 'Host':'httpbin.org'
  7. }#也可以使用add_header()方法添加headers:#req=request.Request(url=url,data=data,method='POST')#req.add_header('User-Agent','Mozilla/4.0(compatible;MSIE 5.5;Windows NT)')
  8. dict={
  9. 'name':'Germey'
  10. }
  11. data=bytes(parse.urlencode(dict),encoding='utf-8')#用urlencode()将dict转换成bytes类型,传递给data
  12. req=request.Request(url=url,data=data,headers=headers,method='POST')
  13. response=request.urlopen(req)
  14. print(response.read().decode('utf-8'))

运行结果:

Python urllib request模块发送请求实现过程解析

2.Handler与Opener 。

Handler:

它是各种处理器,几乎可以做到HTTP请求中的所有事情.

urllib.request模块里的BaseHandler类,它是所有其他Headler的父类,它提供了最基本的方法.

Opener:

例如urlopen()就是一个Opener,它是urllib为我们提供的.

它们的关系是:使用Handler来构建Opener.

3.用法 。

验证:

创建一个需要验证的网站,我这里使用的是IIS 。

Python urllib request模块发送请求实现过程解析

遇到的问题:

IIS怎样安装与配置-百度经验 (baidu.com) 。

IIS网站如何设置基本身份验证-百度经验 (baidu.com) 。

window10家庭版解决IIS中万维网服务的安全性中无Windows身份验证 - enjoryWeb - 博客园 (cnblogs.com) 。

代码:

  1. from urllib.request import HTTPPasswordMgrWithDefaultRealm,HTTPBasicAuthHandler,build_opener
  2. from urllib.error import URLError
  3.  
  4. username='username'#填上自己的用户名和密码
  5. password='password'
  6. url='http://localhost:5000/'
  7.  
  8. p=HTTPPasswordMgrWithDefaultRealm()
  9. p.add_password(None,url,username,password)#添加用户名和密码,建立了一个处理验证的Handler
  10. auth_handler=HTTPBasicAuthHandler(p)#基本认证
  11. opener=build_opener(auth_handler)#利用Handler构建一个Opener
  12.  
  13. try:
  14. result=opener.open(url)#打开链接
  15. html=result.read().decode('utf-8')
  16. print(html)#结果打印html源码内容
  17. except URLError as e:
  18. print(e.reason)

代理:

添加代理,在本地搭建一个代理,运行在9743端口上.

代码:

  1. from urllib.request import ProxyHandler,build_opener
  2. from urllib.error import URLError
  3.  
  4. proxy_handler=ProxyHandler({
  5. 'http':'http://127.0.0.1:9743',
  6. 'https':'https://127.0.0.1:9743'
  7. })#构建一个Handler
  8. opener=build_opener(proxy_handler)#构建一个Opener
  9. try:
  10. response=opener.open('https://www.baidu.com')
  11. print(response.read().decode('utf-8'))
  12. except URLError as e:
  13. print(e.reason)

Cookies:

将网站的Cookies获取下来:

代码:

  1. import http.cookiejar,urllib.request
  2.  
  3. cookie=http.cookiejar.CookieJar()#声明一个CookieJar对象
  4. handler=urllib.request.HTTPCookieProcessor(cookie)#构建一个Handler
  5. opener=urllib.request.build_opener(handler)#构建一个Opener
  6. response=opener.open('http://www.baidu.com')
  7. for item in cookie:
  8. print(item.name+"="+item.value)

运行结果:

Python urllib request模块发送请求实现过程解析

将Cookie输出成文件格式:

代码:

import http.cookiejar,urllib.request 。

filename='cookies.txt' 。

cookie=http.cookiejar.MozillaCookieJar(filename) #MozillaCookieJar()生成文件时用到,用来处理Cookie和文件相关的事件 #如果要保存LWP格式的Cookies文件,可以改为: #cookie=http.cookiejar.LWPCookieJar(filename) 。

handler=urllib.request.HTTPCookieProcessor(cookie) opener=urllib.request.build_opener(handler) response=opener.open('http://www.baidu.com') cookie.save(ignore_discard=True,ignore_expires=True) 。

运行结果:

  1. # Netscape HTTP Cookie File
  2. # http://curl.haxx.se/rfc/cookie_spec.html
  3. # This is a generated file! Do not edit.
  4.  
  5. .baidu.com TRUE / FALSE 1638359640 BAIDUID 9BB1BA4FDD840EBD956A3D2EFB6BF883:FG=1
  6. .baidu.com TRUE / FALSE 3754307287 BIDUPSID 9BB1BA4FDD840EBD25D00EE8183D1125
  7. .baidu.com TRUE / FALSE H_PS_PSSID 1445_33119_33059_31660_33099_33101_26350_33199
  8. .baidu.com TRUE / FALSE 3754307287 PSTM 1606823639
  9. www.baidu.com FALSE / FALSE BDSVRTM 7
  10. www.baidu.com FALSE / FALSE BD_HOME 1

LWP格式:

  1. #LWP-Cookies-2.0
  2. Set-Cookie3: BAIDUID="DDF5CB401A1543ED614CE42962D48099:FG=1"; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2021-12-01 12:04:18Z"; comment=bd; version=0
  3. Set-Cookie3: BIDUPSID=DDF5CB401A1543ED00860C3997C3282C; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2088-12-19 15:18:25Z"; version=0
  4. Set-Cookie3: H_PS_PSSID=1430_33058_31254_33098_33101_33199; path="/"; domain=".baidu.com"; path_spec; domain_dot; discard; version=0
  5. Set-Cookie3: PSTM=1606824257; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2088-12-19 15:18:25Z"; version=0
  6. Set-Cookie3: BDSVRTM=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0
  7. Set-Cookie3: BD_HOME=1; path="/"; domain="www.baidu.com"; path_spec; discard; version=0

以LWP格式的文件为示例,展示读取和利用的方法:

代码:

import http.cookiejar,urllib.request 。

cookie=http.cookiejar.LWPCookieJar() #如果文件保存为Mozilla型浏览器格式,可以改为: #cookie=http.cookiejar.MozillaCookieJar() 。

cookie.load('cookies.txt',ignore_discard=True,ignore_expires=True) #调用load()方法来读取本地的Cookies文件,获取Cookies的内容 。

handler=urllib.request.HTTPCookieProcessor(cookie) opener=urllib.request.build_opener(handler) response=opener.open('http://www.baidu.com') print(response.read().decode('utf-8')) 。

运行结果:输出网页源代码.

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们.

原文链接:https://www.cnblogs.com/Alone-haoran/p/14044861.html 。

最后此篇关于Python urllib request模块发送请求实现过程解析的文章就讲到这里了,如果你想了解更多关于Python urllib request模块发送请求实现过程解析的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com