Elasticsearch寫入瓶頸導致skywalking大盤空白
前言
繼上次skywalking出故障《解析Arthas協(xié)助排查線上skywalking不可用問題》不到一個月,線上skywalking又出毛病了。又是大盤空白,trace列表最近的數據都查詢不出來,但是時間稍久的數據就能查詢出來,如一天前的數據有,一個小時前的數據就沒有,這個只是表象,最終查明癥結是ES的服務寫入瓶頸,導致寫入寫入數據的線程阻塞導致的。下面是排錯過程以及解決方案說明。
問題定位
工具還是那個工具Arthas,不了解的可以翻閱我之前的博文,這里不多說明Arthas。不過這次我們應用了一個新的進階指令thread,它可以查看當前線程信息,查看線程的堆棧。當skywalking大盤沒有數據時,使用如下指令:
thread -b
THREAD -B, 找出當前阻塞其他線程的線程
有時候我們發(fā)現應用卡住了, 通常是由于某個線程拿住了某個鎖, 并且其他線程都在等待這把鎖造成的。 為了排查這類問題, arthas提供了thread -b, 一鍵找出那個罪魁禍首。最后得到如下的結果:
如上圖,相信大家已經看到問題所在了,重點在紅色字體箭頭指向的部分,不得不說Arthas做的太棒了。癥結就是ES的批量寫入失敗線程阻塞了。后從社區(qū)了解到是因為ES寫入瓶頸,導致skywalking在批量寫入索引的時候線程阻塞了。導致阻塞的那段時間的數據都沒有寫到ES,然后查詢是沒有問題的,表象就是skywalking的大盤空白也查詢不到近期的數據了。
解決方案
臨時方案,SKYWALKING參數調優(yōu)
skywalking寫入ES的操作是使用了ES的批量寫入接口。我們可以調整這些批量的維度。盡量降低ES索引的寫入頻率,如:
elasticsearch:
clusterNodes: 192.168.20.221:9200 indexShardsNumber: 2 indexReplicasNumber: 0 # Batch process setting, refer to https://www.elastic.co/guide/en/elasticsearch/client/java-api/5.5/java-docs-bulk-processor.html bulkActions: 4000 # Execute the bulk every 2000 requests bulkSize: 40 # flush the bulk every 20mb flushInterval: 30 # flush the bulk every 10 seconds whatever the number of requests concurrentRequests: 2 # the number of concurrent requests receiver-register: default:
receiver-trace: default:
bufferPath: ../trace-buffer/ # Path to trace buffer files, suggest to use absolute path bufferOffsetMaxFileSize: 500 # Unit is MB bufferDataMaxFileSize: 1000 # Unit is MB bufferFileCleanWhenRestart: false調整bulkActions默認2000次請求批量寫入一次改到4000次。批量刷新從20M一次到40M一次。這種配置調優(yōu)確實生效了,重啟服務后兩三天了都沒有出現過ES寫入阻塞的問題。不過這種設置只是暫時的,你只能期望流量不突發(fā),或者應用不增加。一旦遇到突發(fā)流量和應用的增加,ES寫入瓶頸還是會凸顯出來。而且參數設置過大帶來了一個新的問題,就是數據寫入延時會比較大,一次服務交互發(fā)生的trace隔好久才能在skywalking頁面上查詢到。所以最終解決方案是優(yōu)化ES的寫入性能。
最終方案-優(yōu)化ES的寫入性能
如果是自建Elasticsearch服務,在基礎大數據團隊負責搜索引擎 Elasticsearch 優(yōu)化和開發(fā),博文里分享了很多可調優(yōu)配置的參數。不過我們這邊綜合運維人力和支出方面的考慮,決定采用阿里云提供的Elasticsearch,不過這帶來了一個新的問題,阿里云的ES服務不論內外網都需要Http Basic認證,但是目前的skywalking并沒有提供這種支持。
結語
skywalking是一款非常不錯的開源apm產品,很多功能特性甚至可以和商業(yè)的apm產品一爭高下,比如trace查詢等功能。我們線上的skywalking沒有全面鋪開去接入應用,但是問題還是發(fā)生了不少,希望這些線上的踩坑排坑經驗能帶來更多的參考價值。關于Elasticsearch 帶Http Basic 認證skywalking不支持的問題,將在下文詳描述去解決
以上就是Elasticsearch寫入瓶頸導致skywalking大盤空白的詳細內容,更多關于Elasticsearch寫入skywalking空白的資料請關注腳本之家其它相關文章!
相關文章
maven打包web項目時同時打包為war和jar文件的方法
本篇文章主要介紹了maven打包web項目時同時打包為war和jar文件的方法,具有一定的參考價值,感興趣的小伙伴們可以參考一下2017-10-10
java結合prometheus如何實現自定義數據監(jiān)控
文章介紹了如何配置Prometheus監(jiān)控系統(tǒng),包括配置文件prometheus.yml、被監(jiān)控應用的指標暴露配置以及自定義監(jiān)控指標的實現,同時,還詳細說明了監(jiān)控應用如何通過Prometheus API獲取數據、處理數據并返回結果2024-12-12
spring使用RedisTemplate操作Redis數據庫
這篇文章主要介紹了spring使用RedisTemplate操作Redis數據庫,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2021-03-03

