解決java web應(yīng)用線上系統(tǒng)偶發(fā)宕機(jī)的情況
前言:
事情是醬紫的,系統(tǒng)上線兩個(gè)月后,風(fēng)平浪靜。在一個(gè)秋天寧靜的下午,老衲正喝著茶聽著歌敲著代碼,順便欣賞下妹紙,獨(dú)享這難得的愜意。突然手機(jī)響了,一看來電,心中一沉,項(xiàng)目經(jīng)理來電,必有蹊蹺。匆忙接起電話,沒有問候,直奔主題,“趕緊看下系統(tǒng),個(gè)別客戶反饋系統(tǒng)不能用了,先恢復(fù)系統(tǒng),再排查問題”。
老衲撂下電話,一哆嗦,趕緊連上VPN,直奔服務(wù)器主機(jī)。
PS:三臺服務(wù)器(centos、128G內(nèi)存、32核CPU),tomcat1.7,jdk1.8,通過F5負(fù)載
解決步驟:
1、top命令查看CPU占用情況

可以看到11042進(jìn)程占用了非常多的CPU資源
2、查看F5并發(fā)曲線:為什么應(yīng)用耗費(fèi)了這么多的線程,難道是用戶量突然上來了,調(diào)取了F5的訪問曲線圖,可以看到在15:57左右并發(fā)量突然猛漲,當(dāng)時(shí)根據(jù)曲線懷疑是請求量徒增導(dǎo)致

3、查看系統(tǒng)請求量:根據(jù)應(yīng)用系統(tǒng)日志、以及l(fā)ocalhost_access_log日志 查看此節(jié)點(diǎn)用戶訪問日志,發(fā)現(xiàn)使用人數(shù)并未徒增,根據(jù)請求量繪制的曲線如下:

可以看到曲線并未出現(xiàn)請求量徒增。
4、查看進(jìn)程內(nèi)線程運(yùn)行情況:沒有大量請求,為什么CPU會被使用這么多,難道是有線程的死鎖,
執(zhí)行top -p 11042 -H 查看進(jìn)程內(nèi)所有線程的運(yùn)行情況:

可以看到有很多線程正在執(zhí)行
5、接著打內(nèi)存快照執(zhí)行命令打內(nèi)存快照 在 jdk1.8.0_131/bin下面執(zhí)行 ./jstack -l 11042>log01.txt,然后又隔了一分鐘再次執(zhí)行./jstack -l 11042>log02.txt,生產(chǎn)兩個(gè)文件好對比里面的線程交集
打開日志,并未發(fā)現(xiàn)死鎖的線程,但是在兩個(gè)文件里面卻發(fā)現(xiàn)大量的GC線程在執(zhí)行如圖:

6、分析GC回收情況,在jdk bin目錄下執(zhí)行 ./jstat -gcutil 11042 1000 100

看到了沒有,虛擬機(jī)正在瘋狂的進(jìn)行full GC 回收,垃圾回收線程占用了非常多的CPU資源,問題已經(jīng)有了明確的方向了,接下來需要分析到底是什么導(dǎo)致了full GC的頻繁觸發(fā)。
7、分析堆內(nèi)存:
打印堆內(nèi)存 在jdk bin目錄下執(zhí)行 ./jmap -dump:live,format=b,file=problem.bin 11042 ,將日志文件下載到本地使用jprofiler分析,

發(fā)現(xiàn)有大量char[],String ,map 占用,那么是什么業(yè)務(wù)代碼造成了以上大量的數(shù)據(jù)呢,打開 char[],String 沒有找到與之關(guān)聯(lián)的業(yè)務(wù)代碼, 在map中發(fā)現(xiàn)大量的相同的業(yè)務(wù)對象,但是卻無法直接發(fā)現(xiàn)出是什么操作造成了大量業(yè)務(wù)對象的存在,因?yàn)榇藰I(yè)務(wù)對象代碼中大量使用一一排除的話工作量極大。
一時(shí)陷入困境,靈機(jī)一動,是不是還有別的內(nèi)存快照分析工具,一查有個(gè)mat,在eclipse裝好插件,打開內(nèi)存快照:

點(diǎn)擊leak suspects,如圖

在個(gè)給出問題中一一查看,這時(shí)問題出現(xiàn)了如圖:

BaseDatagridRest 的export導(dǎo)出數(shù)據(jù)方法,突然想到系統(tǒng)中有某個(gè)表數(shù)據(jù)的導(dǎo)出,立即登錄系統(tǒng)查看此項(xiàng)導(dǎo)出功能,發(fā)現(xiàn)這個(gè)導(dǎo)出未對數(shù)據(jù)量做限制,而且BaseDatagridRest 的export方法實(shí)現(xiàn)是將數(shù)據(jù)庫中的表數(shù)據(jù)抽取到內(nèi)存中然后回寫到excle中,讓用戶下載。
我登錄測試環(huán)境,用大數(shù)據(jù)量測試了下導(dǎo)出果然出現(xiàn)了同樣的問題,至此問題水落石出,解決方案很簡單,導(dǎo)出數(shù)據(jù)量加上限制,為了防止因?yàn)閷?dǎo)出過慢時(shí)用戶多次點(diǎn)擊加上和遮罩。
總結(jié):GC不只是用來面試的,更是來解決問題的。
以上這篇解決java web應(yīng)用線上系統(tǒng)偶發(fā)宕機(jī)的情況就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
spring cloud zuul 與 sentinel的結(jié)合使用操作
這篇文章主要介紹了spring cloud zuul 與 sentinel 的結(jié)合使用操作,具有很好的參考價(jià)值,希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-06-06
Java 基礎(chǔ) byte[]與各種數(shù)據(jù)類型互相轉(zhuǎn)換的簡單示例
這篇文章主要介紹了Java 基礎(chǔ) byte[]與各種數(shù)據(jù)類型互相轉(zhuǎn)換的簡單示例的相關(guān)資料,這里對byte[]類型對long,int,double,float,short,cahr,object,string類型相互轉(zhuǎn)換的實(shí)例,需要的朋友可以參考下2017-01-01
springboot項(xiàng)目如何配置多數(shù)據(jù)源
本文介紹了如何在SpringBoot項(xiàng)目中配置多數(shù)據(jù)源,包括配置多個(gè)數(shù)據(jù)源、創(chuàng)建數(shù)據(jù)源配置類、配置事務(wù)管理器以及使用不同的Mapper,從而實(shí)現(xiàn)跨數(shù)據(jù)庫操作2025-03-03
SpringSecurity中的表單認(rèn)證詳細(xì)解析
這篇文章主要介紹了SpringSecurity中的表單認(rèn)證詳細(xì)解析,在上一篇文章中,我們初步引入了?Spring?Security,并使用其默認(rèn)生效的?HTTP?基本認(rèn)證保護(hù)?URL?資源,在本篇文章中我們使用表單認(rèn)證來保護(hù)?URL?資源,需要的朋友可以參考下2023-12-12

