问题排查：nginx的反向代理感觉失效了一样

转载作者：我是一只小鸟更新时间：2023-08-24 22:31:13

38

4

背景

最近，负责基础设施的同事，要对一批测试环境机器进行回收，回收就涉及到应用迁移，问题是整个过程一团乱。比如服务器A上一堆应用要调用服务器B上一堆服务，结果服务器B被回收了，然后服务器A上一堆应用报错.

今天就是负责查一个问题，app上一个头像上传的接口，之前都好好的，不知道怎么就不能访问了，报错现象是在请求后等待n秒超时，然后服务端报错502.

这个服务也不知道谁维护的，可能维护的人早已离职了也说不定，这也是这边的常态吧，人走了，负责的服务还在服务器上跑，也没有交接文档.

问题现象

链路梳理

先上个图，再解释整个链路:

现象就是，app端调用外网ip（记作A）: xxxx端口的某个接口，超时后报502错误，因为是http协议，能从响应中看出来是Apache.

然后，就是去找网络同事，问外网ip:xxx端口对应的内网ip和端口，得到了内网ip（记作B）:80端口。接下来，又是找负责服务器的同事，要服务器B的密码，一开始以为是linux机器，没想到还是windows的。vnc登录进去后，根据端口号找到对应的进程，发现是Apache HTTP Server，这个东西我也不熟悉，知道它类似于nginx，功能类似，但是几乎一直没用过，所幸，在程序的根目录下，找到了一个配置文件，配置文件中配置了反向代理，将请求反向代理到了服务器C:8088端口.

这个服务器C，基本就是今天的主角了.

于是，又去找同事要服务器C的密码，这次还好，是个linux机器，查询8088端口对应的服务，是个nginx进程，然后查看该进程的配置文件，发现请求被反向代理到了本机的9901端口.

问题现象

梳理完整个链路后，我决定去看看最后的java服务的日志，因为是第一次看到这个服务，也不知道日志文件在哪里。cd到 /proc/服务pid/fd 目录下，看到了其打开的文件，里面有个日志文件，但是，打开日志文件，发现里面空空如也.

我又去调了调日志级别，然后app发起请求，发现还是没啥日志.

然后开始怀疑请求没到服务这里，行吧，那还是跟着链路排查下，看看怎么回事.

于是在linux机器上开启java服务的9901端口的抓包，然后重试，发现还是空空如也，什么包都没有.

                        
                          tcpdump -i any tcp port 9901 -Ann

这就奇怪了，没到java服务，那到了nginx没有呢？然后开始抓nginx这块:

                        
                          tcpdump -i any tcp port 8808 -Ann

这次发现包还挺多的，于是根据接口名（url包括Upload关键字）加了个过滤条件:

                        
                          tcpdump -i any tcp port 8808 -Ann |grep Upload

这次发现，能抓到包。这，意思是，看起来nginx是收到包了，但是，没往java服务发啊。这倒是奇了怪了，看起来，反正是nginx的问题，于是，去看nginx的access日志和error日志，发现access日志里并没有该接口的记录，error日志里也啥都没有.

于是我调整了nginx error日志级别为info，如下(从上而下，越来越详细):

                        
                          alert - 系统级别紧急信息
critical - 关键错误信息
error - 一般性错误信息
warn - 警告信息
notice - 一些特殊信息
info - 一般信息
debug - 调试信息

error_log /var/log/nginx/error.log info;

结果，发现error日志还是啥都没有.

然后，我想着是不是我配置文件没看对，我以为会走某个location，该不会没匹配上，走到别的location了，然后转发到其他后端去了?

后面仔细观察了请求接口的url，感觉还是没问题.

当时，基于两个原因，决定采用strace去看看nginx的系统调用:

看看是不是我把location看错了，nginx把请求发到其他机器去了，所以在9901的java服务才看不到日志
看看是不是nginx内部报啥错了，error日志没体现出来

然后找到nginx的pid后，使用如下命令查看网络调用:

                        
                          strace -p nginx-pid -q -f  -s 10000 -e trace=network
命令我也是查了自己当年的文章，不然谁记得住：
https://www.cnblogs.com/grey-wolf/articles/13139308.html

结果，发现系统感觉有问题，执行命令后，啥结果都没有.

换了nginx的worker进程的pid，还是没效果。后边再换了个pid，直接卡死了，ctrl c也没用.

我他么就是感觉这机器有点怪，之前执行lsof也卡住不动，现在strace又这样，真的服了.

一看时间，到午饭时间了，吃饭吧.

来了一点灵感

吃完饭，我又去把之前抓的windows apache和nginx之间的网络包打开分析了一会.

包的前面几个报文如下:

前三个报文是三次握手，8088是我们的nginx服务端。因为我的包就是服务端抓的，看起来，一切正常，服务端是正常完成了三次握手了.

包4，客户端发了个报文过来，包长1516字节，这个包，其实也就是包含了http请求（见下图）；理论上，下一个包应该是我们回复ack，表示包4收到了.

但是，下面的包5、包6，看起来是客户端发生了重传，为啥要重传呢？不知道，接着看下面.

看我上图标红的下面那一行，是我们服务端nginx往客户端发的，68个字节，也有个重传字样，看起来，意思是我们也发生了重传，重传了哪个包呢，就是包2，也就是握手时候的我方回复的syn+ack那个包.

再加个过滤，看看我方到底给对方发了些啥包:

结果，我方貌似一直在给对方重传第二次握手的消息.

我想了半天，终于想差不多了，看来是客户端的第三次握手的ack，被我们忽略了，所以，我们这边，连接一直不是established状态，而是syn received状态。而客户端呢，发完第三次的ack后，就进入了established状态，所以就开始发http请求过来了，我方由于状态不是established，所以一直给对方重发syn + ack.

Tcp_state_diagram

为啥会忽略第三次的ack呢，我突然想起来，如果接收了ack，连接就会正式建立，连接就会放入accept队列（全连接队列），等待应用去accept了。现在反过来想，既然没往accept队列放，会不是队列满了，所以干脆就不添堵了，所以不放了，直接丢弃ack呢?

然后我开始搜索全连接队列满相关的文章，看了几篇，基本感觉有戏.

解决问题

午休结束后，去到测试机（没法在本地直接ssh）上根据文章查验。参考文章： https://blog.51cto.com/u_15181572/6172585 https://blog.csdn.net/Octopus21/article/details/132124481 。

其实全连接队列这个，几年前学习过这个，但是久了没碰到这个场景，早已淡忘，这次还真遇上了。每一个listen状态的socket，都有个全连接队列，队列大小受到两个参数控制，一个是linux的内核参数 net.core.somaxconn ，可通过 sysctl -a |grep somaxconn 查看，我看了我们机器，值为128；另一个参数是应用执行listen时，可以指定一个叫做backlog的int类型参数，nginx中默认为512. 全连接队列大小呢，就是取 min(net.core.somaxconn, 应用listen时的backlog值) ，我这里，两者取小，就是128. 。

这个值怎么查看呢，可以通过:

                        
                          [root@168assi logs]# ss -lnt |egrep "State|8088"
State      Recv-Q Send-Q Local Address:Port               Peer Address:Port              
LISTEN     129    128          *:8088

这里可以看到Send-Q的值，就表示队列的最大值为128. 而Recv-Q呢，就是当前全连接队列的长度，129，可以看到，已经大于128了，说明队列满了.

这里的Recv-Q和Send-Q的值，仅当socket处于listen时表示该意思，非listen时，表示其他意思。这里给个官方解释:

                        
                          Recv-Q
Established: The count of bytes not copied by the user program connected to this socket.

Listening: Since Kernel 2.6.18  this  column
contains the current syn backlog.

Send-Q
Established:  The count of bytes not acknowledged by the remote host.  

Listening: Since Kernel 2.6.18 this column contains the maximum
size of the syn backlog.

另外，再根据文章提到的命令:

                        
                          netstat -s | grep overflow

果然看到数字一直在增长，见下面网图:

基本认定这个问题后，就是修改了，我是直接将内核参数改成了65535:

                        
                          [root@168assi 12556]# vim /etc/sysctl.conf
net.core.somaxconn = 65535
然后如下命令生效：
sysctl -p

接下来，重启nginx，查看队列长度，已经是511了（nginx 默认的listen的backlog值）:

                        
                          [root@168assi 12556]# ss -lnt|grep 8088
LISTEN     0      511          *:8088                     *:*

另外，补充一点，再遇到该队列满时，我们的linxu机器是直接忽略了ack，也可以配置如下参数（值为1，默认为0，表示忽略报文），让其给客户端回复rst报文:

                        
                          [root@168assi logs]# sysctl -a |grep tcp_abort_on_overflow
net.ipv4.tcp_abort_on_overflow = 0

官方解释如下(man tcp，如提示没安装，yum install man-pages):

                        
                          tcp_abort_on_overflow (Boolean; default: disabled; since Linux 2.4)

Enable resetting connections if the listening service is too slow and unable to keep up and accept  them.   It  means  that  if overflow occurred due to a burst, the connection will recover.  Enable this option only if you are really sure that the listening daemon cannot be tuned to accept connections faster.  Enabling this option can harm the clients of your server.

改完再测试，抓包查看，报文很清爽，再没有一堆重传了:

补充

如需查看nginx在location众多时，到底发给了哪个后端upstream，不用像我上面那样用strace，太复杂了，我查了下，可以这样:

http://nginx.org/en/docs/http/ngx_http_log_module.html 。

官方文档的access_log中，默认包含了一个日志format为combined，内容:

                          
                            The configuration always includes the predefined “combined” format:

log_format combined '$remote_addr - $remote_user [$time_local] '
                    '"$request" $status $body_bytes_sent '
                    '"$http_referer" "$http_user_agent"';

我们可以增加一个属性 $upstream_addr ，即可展示转发到哪个upstream了:

http://nginx.org/en/docs/http/ngx_http_upstream_module.html 。

                        
                          log_format combined1 '$remote_addr - $remote_user [$time_local] '
                '"$request" $status $body_bytes_sent '
                '"$http_referer" "$http_user_agent" $upstream_addr' ;
access_log  logs/access.log  combined1;

效果如下:

参考文档

https://mp.weixin.qq.com/s/2qN0ulyBtO2I67NB_RnJbg 。

http://04007.cn/article/323.html nginx配置listen的backlog 。

最后此篇关于问题排查：nginx的反向代理感觉失效了一样的文章就讲到这里了,如果你想了解更多关于问题排查：nginx的反向代理感觉失效了一样的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

38

4

0

文章推荐： [Lua][Love]"图块集与地图"加载显示功能TileMap

文章推荐：深度学习（十三）——损失函数与反向传播

文章推荐： ProgrammingabstractionsinC阅读笔记：p127-p129

文章推荐：《深入理解Java虚拟机》读书笔记：方法调用

android - 如何在 Windows 上使用最新的 Android 模拟器配置 HTTP 代理，如 Fiddler2 或 Charles Web 代理？
我完全不同意配置代理来检查我正在开发的应用程序的 HTTP(S) 流量。我试过运行 Fiddler2 和 Charles Web Proxy，它们都在 127.0.0.1:888 上运行，并使用以下参
amazon-web-services - 在我的 EC2 实例上安装 SSM 代理，以便在没有 SSH 或 key 对的情况下安装 Inspector 代理
我有一个 AWS 环境，其中有几个实例没有预安装 SSM 代理，也没有 key 对，有没有办法在不使用 SSH 登录我的实例的情况下安装 SSM 代理？在此先感谢您的帮助! 最佳答案没有。这是一个
JavaScript 代理
在本教程中，您将借助示例了解 JavaScript 代理。在 JavaScript 中，proxy（代理对象）用于包装对象并将各种操作重新定义到对象中，例如读取、插入、验证等。代理允许您向对
去大文件下载并传递给客户端(代理)
我有一个基于 Martini 的小型应用程序，但遇到了一个我无法解决的问题。我想添加一个应用程序功能，允许用户从第三个服务器获取文件，并在 HTTP header 中进行一些更改。某种代理。这些文件
设计模式：代理、装饰和适配器模式的区别
结构对比讲实话，博主当初学习完整设计模式时，这三种设计模式单独摘哪一种都是十分清晰和明确的，但是随着模式种类的增加，在实际使用的时候竟然会出现恍惚，例如读开源代码时，遇到不以模式命名规范的代码时，
nginx 代理 ELK
我正在尝试代理运行 ELK 的后端服务器。这是我的环境信息: root@proxy:~# root@proxy:~# cat /etc/*release DISTRIB_ID=Ubuntu DISTR
Java 代理、检测和数组创建
我需要为我的 java 应用程序编写一个代理，它在每个数组创建时执行一些特定的操作。到目前为止，我无法找到在此事件上运行我的代码的任何方法。 java.lang.instrument.ClassFil
PHP 代理 - 基本说明
PHP 代理如何工作？我希望制作一个类似于其他 php 代理的小脚本但是它实际上是如何工作的呢？最佳答案我正在考虑一个 PHP 代理，用于绕过 AJAX Sane Origin 策略。如果您需
proxy - Electron 代理
我有一个 Electron 应用程序，试图通过该应用程序从同一网络调用url，但是出于安全考虑，我考虑了使用代理的想法。 function createWindow () { const mai
c# - 内部路由/代理
我有 1 台计算机，安装了 1 个网卡。网卡有 10 个 IP 地址分配给它。我在那里运行了一个 Windows 桌面应用程序。该应用程序基本上是一个调用 1 个特定网站的网络浏览器。我想要实现的是
Java 代理 Burp
我想将 Burp 配置为我的 java 代码的代理，以查看请求和响应。Burp 作为 Web 浏览器之间的代理可以很好地工作，但它不适用于 Java 应用程序。我已经在代码中添加了这样的行: Web
java - 在拦截方法上配置拦截器(代理)
据我所知，在Spring AOP中，当我们想要拦截某些方法调用时，我们会配置一个具有与所需方法调用相匹配的切入点配置的Aspect。也就是说，我们在Aspect端配置拦截。有没有一种方法可以完全从相
Java 代理 - 获取传出请求
这可能是一个常见问题，但是:我有一个正在向发出请求的应用程序elldmess.cz/api/... 但是这个api已经没有了。现在我想要“东西”，即 catch 对 elldmess.cz/api
使用套接字的 Android 代理
我正在尝试在 Android 中创建代理，但我必须使用套接字。我已经阅读了很多教程并提出了以下代码。不幸的是，浏览器似乎没有获得任何数据，一段时间后它显示标准网页，说网页不可用。可能是什么原因？感谢您
使用套接字的 Java 代理
我在使用此代码时遇到了一些问题，具体取决于我使用的浏览器，有些 URL 在 IE 中显示正确，但在 Firefox 中显示为纯文本(例如 www.microsoft.es 在 IE 上看起来不错，但在
Python urllib 代理
我正在尝试通过 urllib 获取一些 url 并通过我的代理进行 Mechanize 。使用 mechanize 我尝试以下操作: from mechanize import Browser im
Python https 代理
我安装了一个嵌入式设备(光伏转换器)，它提供了一个正常的 http Web 界面(信息和设置)。该转换器具有用户身份验证，但只能通过 http 进行。出于安全考虑，我不想将服务器直接发布到互联网上。在
ruby MITM 代理
我正在搜索有关如何使用支持 HTTPS 的 Ruby 编写代理的一些示例。我有一个使用 Webricks HTTPProxyServer 实现的简单代理，但我注意到，HTTPS 流量只是隧道传输(它应
SSL 代理/解密？
我的一位客户刚收到他选择的开发商订购的软件，让我看一下并准备托管程序。这是一个 Java (jar) 应用程序，到目前为止一切顺利......但我看到了一些可疑的东西，软件每隔 60 分钟左右连接到
c#- HTTPS 代理
我试图在 C# 中创建一个 HTTPS 代理服务器。这里有人发布了解决方案: string host = "encrypted.google.com"; string

首页

博学

6Ren·AI

商城

问题排查：nginx的反向代理感觉失效了一样

背景

问题现象

链路梳理

问题现象

来了一点灵感

解决问题

补充

参考文档