网站频繁出现502 bad gateway 怀疑是127.0.0.1连接太多

发布于 2022-08-27 13:06:58 字数 385 浏览 27 评论 0

用的是linode的vps,在上面架设了一个discuz论坛和一个wordpress的博客两个站。每天pv两个站加起来大概有九万多,vps的配置是2G内存,所有程序跑满后还能剩余600MB左右,用的web服务端是nginx,从配置后四个月内一直没有问题,最近频繁的502 bad gateway报错。
开始也找不到问题所在,认为是配置环境的问题,于是重新配置了环境,折腾了几次之后发现依然是这样502 bad gateway报错或者根本打不开,检查后台IP连接数,发现有个127.0.0.1这个ip的连接数特别多,每次宕机之前能高于1500的IP连接数。
在这里提问想询问各位大牛究竟问题出自哪里?这么高的连接数出自什么原因,是这个连接数导致的502吗?如何可以解决?
第一次提问,本人新手,冒昧提问,请各位大牛理解。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

弃爱 2022-09-03 13:06:58

502的问题有很多种情况,主要的问题就是nginx->php这一层出现问题,可能是并发问题,也可能是PHP处理能力问题,还有可能是code代码的问题.

  • 你说的127.0.0.1比较多是很正常的,估计是因为你的nginx调用php使用的是ip:port的方式,还有mysql也会是走的127.0.0.1,所以你应该用端口来区分.
  • 另外你说数量比较多,也不会全是ESTABLIST,如果你了解TCP协议就会知道,会有哪些状态. 你可以查看下各个状态的量.
    netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'
  • 如果TIMEWAIT的数量太多,当然是可以做一些优化的.
net.core.somaxconn = 4096
net.ipv4.tcp_max_syn_backlog = 8192
net.ipv4.tcp_syn_retries= 5
net.ipv4.tcp_synack_retries = 5
net.ipv4.tcp_abort_on_overflow=0
net.ipv4.tcp_tw_reuse=1
net.ipv4.tcp_tw_recycle=1 
net.ipv4.tcp_timestamps=1
net.ipv4.tcp_syncookies=1
net.ipv4.tcp_max_tw_buckets=90000
net.ipv4.tcp_fin_timeout=30
net.ipv4.ip_local_port_range=10000 65000
net.ipv4.tcp_keepalive_time=1200
  • 如果担心并发能力的问题,可以查看下ulimit 还有nginx的并发控制.
  • 其实如果你的访问量(PV)没有太多变化,但是导致了502我想你应该多查看下php的日志.另外很常见的一个可能性是因为某个PHP程序hang住,导致你之后的PHP进程全部堵塞出现处理能力不够,这个可以查看你每一个请求的处理时间.还有限制php进程处理时间,减少Backlog的数量,但并不一定Max_children开得越大越好,像2G的还是开小些吧,32够了.
  • 尤其是在出现502的时候一定要多观察PHP的状态,是有defunct,还是有CPU或者内存占用很大的进程.都是可以发现问题的.要具体问题具体分析了.

下面看下我实验的502情况(结构说明: Nginx(proxy)-->Nginx+PHP 表格中说的nginx和PHP都是非proxy):

操作过程返回时间返回码
nginx 进程不存在立马502
服务器死机> proxy_connect_timeout502
Nginx 存在,fpm不存在立马502
nginx 存在,fastcgi执行超时> fastcgi_read_timeout504
fpm backlog队列满立马502
fpm 主动断开> request_terminate_timeout502

PS:你的标题应该改改,应该是 "网站频繁出现502,怀疑是127.0.0.1连接太多",把现象先描述出来.

护你周全 2022-09-03 13:06:58

我以前碰到这种问题是因为在nginx后面的web server没有正确完成TCP termination 导致大量的TIME_WAIT/CLOSE_WAIT connection,最后导致open file超过上限。你netstat -ano | grep -E 'TIME_WAIT|CLOSE_WAIT' | wc -l看看是不是很多呢。如果是的话,可以调整linux的参数:

减少TIME_WAIT的timeout时间至30s
echo 30 > /proc/sys/net/ipv4/tcp_fin_timeout

如果CLOSE_WAIT过多,那就是server实现有bug。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文