SQL Server內(nèi)存遭遇操作系統(tǒng)進程壓榨案例分析
場景:
最近一臺DB服務(wù)器偶爾出現(xiàn)CPU報警,我的郵件報警閾(請讀yù)值設(shè)置的是15%,開始時沒當(dāng)回事,以為是有什么統(tǒng)計類的查詢,后來越來越頻繁。
探索:
我決定來查一下,究竟是什么在作怪,我排查的順序如下:
1、首先打開Cacti監(jiān)控,發(fā)現(xiàn)最近CPU均值在某天之后驟然上升,并且可以看到System\Processor Queue Length 和 sqlservr\%ProcessorTime 也在顯著的變化。

2、從最容易入手的低效SQL開始,考慮是不是最近業(yè)務(wù)做了什么修改?連接到該SQL實例,打開活動監(jiān)視器,展開“最近耗費大量資源的查詢”,并CPU時間倒序,在這里并未發(fā)現(xiàn)有即時的耗費資源的查詢。據(jù)個人經(jīng)驗,這里的值如果是4位數(shù),分鐘內(nèi)執(zhí)行次數(shù)3位數(shù),一般的服務(wù)器CPU大概就10%以上,如果cpu時間那里是5位數(shù),且分鐘內(nèi)執(zhí)行次數(shù)也很高,幾百次以上,那CPU一般就會不淡定了。圖片僅為演示


3、沒有耗資源的SQL,這是DBA最不愿意看到的結(jié)果,因為也許,SQL Server受到了來自內(nèi)部或者外部的壓力,使得自己花費了過多的時間去處理與操作系統(tǒng)的溝通去了。SQL Server常見的非查詢低效類的性能問題,絕大多數(shù)都來自于內(nèi)存或者硬盤,而這兩者有的時候需要同時研究對比基線,才能確定誰是因,誰是果。在這里,我們首先查看SQL Server內(nèi)存使用情況,當(dāng)打開性能計數(shù)器時,我和我的小伙伴們都驚呆了……安裝了64G內(nèi)存的數(shù)據(jù)庫,SQL Server的TargetMemory僅有500多兆!這其中StolenPage還占用了200多兆,數(shù)據(jù)庫DataPage僅有200多兆的內(nèi)存可供使用,Oh,Shit!雖然我很不想用“去哪了”這三個字,但是“我的內(nèi)存去哪了“?同時我們也注意到PageLifeExpectancy值只有26(一個內(nèi)存充足的服務(wù)器,這個值至少應(yīng)該是上W的),而很早之前我們津津樂道的"Cache Hit Ration"卻仍然保持一個比較高的水準(zhǔn)98! 這個案例告訴我們,緩存命中率這個性能計數(shù)器很多時候說明不了什么問題。

4、OK,既然這樣,是誰占用了本該屬于我親愛的SQL Server的內(nèi)存呢?我們繼續(xù),打開Wiindows任務(wù)管理,選定進程選項卡,點擊顯示所有用戶進程,發(fā)現(xiàn)svchost.exe占用了絕大多數(shù)的60G內(nèi)存!

5、那svchost.exe又是個什么東西呢?我們下面就用到ProcessMonitor這個工具了,打開后自動加載所有Wiindows進程,按內(nèi)存排序后,鼠標(biāo)移至svchost.exe進程上,顯示為Remote Registry服務(wù)。

果然:Assume that you query performance counters on a remote computer by using an application on a computer that is running Windows 7 or Windows Server 2008 R2. In this situation, the memory usage of the Remote Registry service on the local computer increases until the available memory is exhausted.
解決方法:
1、重啟服務(wù)器,安裝hotfix
2、因為重啟服務(wù)器會影響到業(yè)務(wù),所以我在想重啟RemoteRegistry服務(wù),應(yīng)該也能暫時解決問題,這個bug應(yīng)該是在某種固定情景下發(fā)生的。
隨后,在合適的時間,我重啟了這個服務(wù),SQL Server的TargetMemory重新恢復(fù)到60多G,CPU也正常了,目前為止該問題未再發(fā)生。
后續(xù)跟進:
DBA的工作,說難也難,說容易也容易,發(fā)現(xiàn)問題,解決問題還不夠,我們還要意識到自己的欠缺,在本案例中,我之前并沒有建立起SQL Server內(nèi)存的監(jiān)控,所以沒有在第一時間就發(fā)現(xiàn)病情的嚴(yán)重性,好在該服務(wù)器并未承擔(dān)重要業(yè)務(wù),否則后果不堪設(shè)想,說不定早就崩潰過了,后怕之處在于,如果崩潰了,自然要重啟服務(wù)器,到那個時候,我們連第一現(xiàn)場都沒有,當(dāng)leader問起來,我又該使勁撓頭了。
該事件之后,我建立起了SQL Server內(nèi)存的監(jiān)控,1天后,我從新的監(jiān)控數(shù)據(jù)中,又發(fā)現(xiàn)了一臺服務(wù)器出現(xiàn)相同的問題!我很慶幸,不是慶幸服務(wù)器沒宕機,而是慶幸我做對了。
附一張內(nèi)存監(jiān)控圖,可以看到服務(wù)重啟之后,SQL Server的Total Pages一直在上升,并逐漸穩(wěn)定,Page life expectancy也在變得越來越大,CPU也能指示病癥已消除,我很欣慰。


總結(jié):
服務(wù)器在出現(xiàn)性能問題前,大部分是提前有一些征兆的,尤其是內(nèi)存泄露,因為內(nèi)存是一點點被壓榨掉的,最后到達(dá)一個極限時,SQL Server就會突然Crash掉,然后只留給你一個dump,微軟就笑了。有經(jīng)驗的大夫應(yīng)該從日常的腰酸背痛中看出一些端倪,然后進一步分析,提前預(yù)知重大疾病的發(fā)生,這就是DBA的價值。這個案例,告訴我,重視服務(wù)器異常的細(xì)節(jié)變化,才能做到防患于未然。
相關(guān)文章
SQL Server實現(xiàn)跨庫跨服務(wù)器訪問的方法
這篇文章主要給大家介紹了關(guān)于SQL Server實現(xiàn)跨庫跨服務(wù)器訪問的方法,文中通過示例代碼介紹的非常詳細(xì),對大家學(xué)習(xí)或者使用SQL Server具有一定的參考學(xué)習(xí)價值,需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧2019-06-06
SQL server數(shù)據(jù)庫創(chuàng)建代碼 filegroup文件組修改的示例代碼
這篇文章主要介紹了SQL server數(shù)據(jù)庫創(chuàng)建代碼 filegroup文件組修改的實現(xiàn)方法,本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價值,需要的朋友可以參考下2019-08-08
MS SQL Server數(shù)據(jù)庫清理錯誤日志的方法
SQL服務(wù)器磁盤空間爆滿導(dǎo)致數(shù)據(jù)庫無法訪問。遠(yuǎn)程到服務(wù)器上,發(fā)現(xiàn)原來是SQL錯誤日志文件惹的禍,數(shù)據(jù)庫在1秒內(nèi)產(chǎn)生上100M大小的日志,沒多長時間就將磁盤空間堵滿了,下面說說解決方案2013-11-11
SQL Server 性能調(diào)優(yōu)之查詢從20秒至2秒的處理方法
這篇文章主要介紹了SQL Server 性能調(diào)優(yōu)之查詢從20秒至2秒的處理方法,需要的朋友可以參考下2017-07-07
SQLite3數(shù)據(jù)庫的介紹和使用教程(面向業(yè)務(wù)編程-數(shù)據(jù)庫)
這篇文章主要介紹了SQLite3數(shù)據(jù)庫的介紹和使用(面向業(yè)務(wù)編程-數(shù)據(jù)庫),本文從SQLite3的庫的獲取、工程管理、SQL語句介紹、C語言編程四個角度闡述了SQLite3數(shù)據(jù)庫的實際應(yīng)用,需要的朋友可以參考下2023-05-05
SQL有外連接的時候注意過濾條件位置否則會導(dǎo)致網(wǎng)頁慢
這個SQL之所以跑得慢是因為開發(fā)人員把SQL的條件寫錯位置了2013-05-05
正確的寫法應(yīng)該是下面這樣的,感興趣的朋友可以參考下
如何解決在Azure上部署Sqlserver網(wǎng)絡(luò)訪問不了
這篇文章主要介紹了如何解決在Azure上部署Sqlserver網(wǎng)絡(luò)訪問不了的相關(guān)資料,需要的朋友可以參考下2015-10-10

