使用shell腳本找出網(wǎng)站的空頁面和404錯誤頁面
早之前記的一個筆記了,之前只是記錄了兩句代碼,放出來的話也是一個低質(zhì)量的頁面,于是設(shè)置為了僅自己可見,今晚抽空補(bǔ)充一下。
記得當(dāng)?shù)那榫皯?yīng)該是提交sitemap時百度老提示有錯誤的URL,導(dǎo)致sitemap不能正常被抓取,于是在想辦法解決這個問題,所以才有下面這些筆記:用shell批量找出網(wǎng)站空頁面和404錯誤頁面。
廢話不多說,直接上shell代碼:
time cat sitemap.txt|while read line;do curl -l $line -m 5 --connect-timeout 5 -o /dev/null -s -w "$line "%{http_code}" "%{size_download}"\n";done
前面加了一個time是為了看看代碼執(zhí)行所花的時間
%{http_code}意思是返回HTTP狀態(tài)碼,通過這個狀態(tài)碼我們就能知道該鏈接是正常的200鏈接,還是404錯誤鏈接;
%{size_download}意思是返回當(dāng)前頁面的大小,如果值太小的話,說明這些頁面很有可能是低質(zhì)量的空頁面,得想辦法剔除掉。
相關(guān)文章
Shell腳本判斷Linux系統(tǒng)是32位還是64位的幾種方法分享
這篇文章主要介紹了Shell腳本判斷Linux系統(tǒng)是32位還是64位的幾種方法分享,本文共給出了4種方法實現(xiàn)系統(tǒng)位數(shù)在判斷,需要的朋友可以參考下2014-12-12
獲取站點的各類響應(yīng)時間(dns解析時間,響應(yīng)時間,傳輸時間)
有時候為了測試網(wǎng)絡(luò)情況,需要返回每個階段的耗時時間,比如DNS解析耗時,建立連接所消耗的時間,從建立連接到準(zhǔn)備傳輸所使用的時間,從建立連接到傳輸開始所使用的時間,整個過程耗時,下載的數(shù)據(jù)量,下載速度,上傳數(shù)據(jù)量,上傳速度等等2014-03-03
使用Systemctl列出Linux中所有服務(wù)的操作步驟
在 Linux 系統(tǒng)中,Systemctl 是一個強(qiáng)大的工具,用于管理系統(tǒng)的服務(wù)和守護(hù)進(jìn)程,它可以讓用戶輕松地啟動、停止、重啟以及管理各種系統(tǒng)服務(wù),本文將詳細(xì)介紹如何使用 Systemctl 來列出 Linux 中的所有服務(wù),需要的朋友可以參考下2024-05-05
Linux系統(tǒng)上實現(xiàn)定時重啟Tomcat服務(wù)腳本介紹
大家好,本篇文章介紹的是Linux系統(tǒng)上實現(xiàn)定時重啟Tomcat服務(wù)腳本介紹,感興趣的同學(xué)趕緊來看看,希望可以對你起到幫助2021-11-11

