真正“搞”懂HTTP协议11之代理服务-6ren

真正“搞”懂HTTP协议11之代理服务

转载作者：我是一只小鸟更新时间：2023-02-09 14:31:56

　　代理，其实全称应该叫做代理服务器，它是客户端与服务器之间得中间层，本质上来说代理就是一个服务器，在HTTP的链路中插入的一个中间环节，就是代理服务器啦。所谓的代理服务就是指：服务本身不生产内容，而是处于中间位置转发上下游的请求和响应，具有双重身份。面向下游的用户时，表现为服务器，代表源服务器响应客户端的请求。而面上上游源服务器时，又表现为客户端，代表客户端发送请求.

　　我们发现，其实代理服务器在中间既是客户端，又是服务器，那么其实他就可以在请求或响应经过它的时候，夹带上一些额外的东西.

　　代理有很多种类，比如匿名代理、透明代理、正向代理、反向代理.

　　而我们最常听说的，就是正向代理和反向代理，其中正向代理其实代理的是客户端，服务器不知道真正的客户端是谁，客户端对服务器隐蔽。而反向代理则代理的是服务器，客户端不知道源服务器是谁。而反向代理则是现代服务器技术的基本实践了，几乎各个应用的服务器都会搞一下反向代理.

　　反向代理在传输链路中更接近源服务器，为源服务器提供代理服务，我们今天讲的其实就是反向代理.

1、代理的作用

　　我们简单的了解了代理的概念，那么接下来我们看看代理有啥用处呢？或者说反向代理的作用是什么呢?

　　我记得我之前说过，在最开始讲互联网分层模型的时候，计算机科学领域里的任何问题，都可以通过引入一个中间层来解决，如果一个中间层解决不了，那就再加一层。哈哈哈哈，所以不仅仅是在TCP/IP模型中是这样，在代理中也是这样.

　　代理（以下所有的“代理”都指反向代理，不再重复）一个最基本的功能就是负载均衡，因为反向代理在面向客户端得时候屏蔽了真实服务器，客户端看到的只是代理服务器，源服务器究竟有多少台、是哪些IP地址都不知道，于是服务器就可以掌握请求分发的大权，决定由哪一台隐藏在背后的服务器去响应请求.

　　代理中常用的负载均衡算法大概有轮询、一致性哈希等，大家了解下就行了，这些算法的目标都是尽量把外部的流量合理的分散到多台源服务器，提高系统的整体资源利用率和性能.

　　在负载均衡的同时，代理服务还可以执行更多的功能，比如:

健康检查：使用“心跳”等机制监控后端服务器，发现有故障就及时“踢出”集群，保证服务高可用；
安全防护：保护被代理的后端服务器，限制 IP 地址或流量，抵御网络攻击和过载；
加密卸载：对外网使用 SSL/TLS 加密通信认证，而在安全的内网不加密，消除加解密成本；
数据过滤：拦截上下行的数据，任意指定策略修改请求或者响应；
内容缓存：暂存、复用服务器响应。

2、代理相关头字段

　　代理的好处很多，因为它欺上瞒下的特点，所以对上下游都隐藏了很多信息，但是如果双方想要获得这些信息怎么办呢?

　　首先，代理服务器需要用 Via 字段来表明代理的身份.

　　Via是一个通用头字段，客户端和服务器都可以使用，没经过一个代理节点，代理服务器就会把信息增加到字段末尾，有点像盖章的感觉。如果通信链路中又很多代理，就会在Via中形成一个链表，这样就可以知道报文究竟经过了多少环节才到达了目的地.

　　假设我们的中间代理有两个：proxy1和proxy2，当客户端发送请求到服务器时，会经过这两个代理，那么Via字段就是这样的:

                          Via: proxy1, proxy2

　　等到服务器发送响应报文的时候，到达客户端的就是这样的:

                          Via: proxy2, proxy1

　　但是Via字段只解决了客户端和源服务器判断是否存在代理的问题，还不能知道对方的真实信息.

　　但是，服务器的信息必然应该是保密的，一般不会让客户端知道。但是往往服务器要知道客户端的一些真实信息，比如IP地址啥的，用来做用户画像，统计分析等等.

　　可惜的是，HTTP标准里并没有定义相关的头字段，但是已经出现了很多“事实上的标准”，最常用的两个头字段就是“ X-Forwarded-For ”和“ X-Real-IP ”.

　　"X-Forwarded-For"的字面意思是“为谁而转发”，形式上和“Via”差不多，也是没经过一个代理节点就会在字段里追加一个信息。但“Via”追加的是代理主机名或者域名，而“X-Forwarded-For”追加的是请求方的IP地址。所以在字段最左边的IP地址就是客户端的地址.

　　“X-Real-IP”是另一种获取客户端真实 IP 的手段，它的作用很简单，就是记录客户端 IP 地址，没有中间的代理信息，相当于是“X-Forwarded-For”的简化版。如果客户端和源服务器之间只有一个代理，那么这两个字段的值就是相同的.

　　除了"X-Forwarded-For"和“X-Real-IP”还有“X-Forwarded-Host”和“X-Forwarded-Proto”，它们的作用与“X-Real-IP”类似，只记录客户端的信息，分别是客户端请求的原始域名和原始协议名.

3、代理协议

　　有了"X-Forwarded-For"等字段，源服务器就可以拿到准确的客户端信息了。但是你发现一个问题没有，这些信息都是写在HTTP头里的，换句话说，通过这些字段来操作代理信息就需要解析HTTP头，然后再在解析的头里去修改HTTP头，这对代理来说就需要较高的成本了，我本来需要做的就只是转发一下，现在你还要让我读一下，改一下，肯定会降低代理转发的性能，原来我一秒能传几百次，结果经历了解析和修改的过程，只能传几十次了.

　　再有一个就是，“X-Forwarded-For”等字段，必须要修改原始报文，但是其实有些情况是不允许甚至不可能修改的，比如应用HTTPS加密报文，要知道现在正经的浏览器站点，几乎全部使用HTTPS.

　　所以就出现了一个专门的“代理协议”（The PROXY protocol），它由知名的代理软件 HAProxy 所定义，也是一个“事实标准”，被广泛采用（注意并不是 RFC噢）。“代理协议”有 v1 和 v2 两个版本，v1 和 HTTP 差不多，也是明文，而 v2 是二进制格式。今天只介绍比较好理解的 v1，它在 HTTP 报文前增加了一行 ASCII 码文本，相当于又多了一个头.

　　这一行文本其实非常简单，开头必须是“PROXY”五个大写字母，然后是“TCP4”或者“TCP6”，表示客户端的 IP 地址类型，再后面是请求方地址、应答方地址、请求方端口号、应答方端口号，最后用一个回车换行（\r\n）结束。就像这样:

                          
                            PROXY TCP4 
                             1.1 
                            .
                             1.1 
                             2.2 
                            .
                             2.2 
                             55555 
                             80 
                          
                          
                             \r\n 
                            
GET 
                          
                          / HTTP/
                          
                            1.1
                          
                          
                            \r\n
Host: www.zaking.com\r\n
\r\n

　　服务器看到这样的报文，只需要解析第一行就可以拿到客户端地址了，不需要再去解析整个HTTP报文，省了很多数据.

　　不过代理协议并不支持“X-Forwarded-For”的链式地址形式，所以拿到客户端地址后再如何处理就需要代理服务器与后端自行约定.

4、小结

　　本篇，我们了解了下代理是什么，以及反向代理在HTTP中所应用的一些请求头。理解上来说并不复杂，就是记录代理链路中必要的信息。那么下面我们来通过问题回忆一下本篇的内容和知识.

我们学习了Via以及X-Forwarded-For、X-Real-IP等关于代理的字段，那么其中哪些是HTTP协议所定义的？哪些只是“事实标准”呢？
除了X-Forwarded-For、X-Real-IP你还知道哪些关于代理的头字段呢？
代理协议是啥东东？

　　好啦，本篇就到这里了，下一篇是关于HTTP/1.1的最后一篇文章啦~~ 。

最后此篇关于真正“搞”懂HTTP协议11之代理服务的文章就讲到这里了,如果你想了解更多关于真正“搞”懂HTTP协议11之代理服务的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐：支付对接常用的加密方式介绍以及java代码实现

文章推荐： 100行shell写个Docker

文章推荐：《Terraform101从入门到实践》第一章Terraform初相识

C++(真正)安全的标准字符串搜索？
缓冲区溢出问题是众所周知的。因此，我们有幸使用标准库函数，例如 wcscat_s()。 Microsoft 的好心人已经创建了类似的安全字符串函数，例如 StringCbCat()。但是我遇到了一个
真正“搞”懂HTTP协议10之缓存控制
　　HTTP缓存相关的问题好像是前端面试中比较常见的问题了，上来就会问什么cache-control字段有哪些，有啥区别啥的。嗯……说实话，我觉得至少在本篇来说，HTTP缓存还算不上复杂，只是字段稍
真正“搞”懂HTTP协议11之代理服务
　　代理，其实全称应该叫做代理服务器，它是客户端与服务器之间得中间层，本质上来说代理就是一个服务器，在HTTP的链路中插入的一个中间环节，就是代理服务器啦。所谓的代理服务就是指：服务本身不生产内容，
真正“搞”懂HTTP协议12之缓存代理
　　我们在前两篇的内容中分别学习了缓存和代理，大致了解了缓存有哪些头字段，代理是如何服务于服务器和客户端的，那么把两者结合起来，代理缓存，也就是说代理服务器也可以缓存，当客户端请求数据的时候，未必一
真正“搞”懂HTTP协议13之HTTP2
　　在前面的章节，我们把HTTP/1.1的大部分核心内容都过了一遍，并且给出了基于Node环境的一部分示例代码，想必大家对HTTP/1.1已经不再陌生，那么HTTP/1.1的学习基本上就结束了。这两
真正“搞”懂HTTP协议14之HTTP3
　　我们前一篇学习了HTTP/2，相比于HTTP/1，HTTP/2在性能上有了大幅的改进，但是HTTP/2因为底层还是基于TCP协议的，虽然HTTP/2在应用层引入了流的概念，利用多路复用解决了队头
真正“搞”懂HTTPS协议15之安全的定义
　　前面我们花了很大的篇幅来讲HTTP在性能上的改进，从1.0到1.1，再到2.0、3.0，HTTP通过替换底层协议，解决了一直阻塞性能提升的队头阻塞问题，在性能上达到了极致。　　那么，接下
真正“搞”懂HTTPS协议16之安全的实现
　　上一篇噢，我们搞明白了什么是安全的通信，这个很重要，特别重要，敲黑板！！　　然后，我们还学了HTTPS到底是什么，以及HTTPS真正的核心SSL/TLS是什么。最后我们还聊了聊TLS的实
真正“搞”懂HTTPS协议17之TLS握手
　　经过前两章的学习，我们知道了通信安全的定义以及TLS对其的实现~有了这些知识作为基础，我们现在可以正式的开始研究HTTPS和TLS协议了。嗯……现在才真正开始。　　我记得之前大概聊过，当
真正“搞”懂HTTP协议07之队头阻塞真的很烦人
　　这一篇文章，我们核心要聊的事情就是HTTP的对头阻塞问题，因为HTTP的核心改进其实就是在解决HTTP的队头阻塞。所以，我们会讲的理论多一些，而实践其实很少，要学习的头字段也只有一个，我会在最开始
真正“搞”懂HTTP协议09之这个饼干不能吃
　　我们在之前的文章中介绍HTTP特性的时候聊过，HTTP是无状态的，每次聊起HTTP特性的时候，我都会回忆一下从前辉煌的日子，也就是互联网变革的初期，那时候其实HTTP不需要有状态，就是个浏览页面
真正“搞”懂HTTP协议05之What'sHTTP？
　　前面几篇文章，我从纵向的空间到横向的时间，再到一个具体的小栗子，可以说是全方位，无死角的覆盖了HTTP的大部分基本框架，但是我聊的都太宽泛了，很多内容都是一笔带过，再加上一句后面再说就草草结束了。
php - 如何(真正)对适配器进行单元测试
我的问题确实很简单，是否应该对适配器(设计模式)类进行单元测试，以及如何进行测试？例子: 我想用PHP创建一个ClientSocket类，它是fsockopen，fread，fwrite的适配器。
php - 如何对选定的行(真正)随机排序？
目前，我在 PHP 脚本中使用此查询: SELECT * FROM `ebooks` WHERE `id`!=$ebook[id] ORDER BY RAND() LIMIT 125; 数据库最多大约
c# - 如何从未(真正)加载的程序集中获取自定义属性
我们都知道可以使用 GetCustomAttributes 方法查询程序集的属性。我想用它来识别我的应用程序的扩展模块。但是，为了避免加载每个程序集，我更喜欢防御性方法: 使用 Assembly.Re
c++ - 如何确定是什么*真正*导致您的编译器错误
我正在移植一个非常大的代码库，我在处理旧代码时遇到了更多困难。例如，这会导致编译器错误: inline CP_M_ReferenceCounted * FrAssignRef(CP_M_Refere
javascript - 对象可以*真正*从Error.prototype继承吗？
[关于此主题还有其他类似的问题，但是它们都没有回答我在这里提出的问题，即AFAICT。 (即，我已经阅读了所有答案，解释了为什么特定构造无法与发问者尝试进行的操作，在某些情况下，它们提供了获得所需结果
javascript - 使用 Javascript(真正)实时更新数据
嗨我想为需要全屏运行的网络艺术应用程序构建一个控制面板，因此所有控制颜色和速度值等内容的面板都必须位于不同的窗口中。我的想法是建立一个数据库来存储所有这些值，当我在控制面板窗口中进行更改时，应用程
android - 我们什么时候应该(真正)使用 RenderScript？
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 9 年前。 Improve this qu
database - 用于/真正/分布式副本的 couchdb
假设我想实现一个分布式数据库(每个节点都是其他节点的副本)；我听说 cdb 能够轻松地在两个节点之间进行同步，并且至少支持某种形式的冲突解决。不幸的是我不知道 couchdb 因此我不得不问:节点“

我是一只小鸟

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城