在Nginx中攔截特定用戶代理的教程
現(xiàn)代互聯(lián)網(wǎng)滋生了大量各種各樣的惡意機器人和網(wǎng)絡爬蟲,比如像惡意軟件機器人、垃圾郵件程序或內(nèi)容刮刀,這些惡意工具一直偷偷摸摸地掃描你的網(wǎng)站,干些諸如檢測潛在網(wǎng)站漏洞、收獲電子郵件地址,或者只是從你的網(wǎng)站偷取內(nèi)容。大多數(shù)機器人能夠通過它們的“用戶代理”簽名字符串來識別。
作為第一道防線,你可以嘗試通過將這些機器人的用戶代理字符串添加入robots.txt文件來阻止這些惡意軟件機器人訪問你的網(wǎng)站。但是,很不幸的是,該操作只針對那些“行為良好”的機器人,這些機器人被設計遵循robots.txt的規(guī)范。許多惡意軟件機器人可以很容易地忽略掉robots.txt,然后隨意掃描你的網(wǎng)站。
另一個用以阻擋特定機器人的途徑,就是配置你的網(wǎng)絡服務器,通過特定的用戶代理字符串拒絕要求提供內(nèi)容的請求。本文就是說明如何在nginx網(wǎng)絡服務器上阻擋特定的用戶代理。
在Nginx中將特定用戶代理列入黑名單
要配置用戶代理阻擋列表,請打開你的網(wǎng)站的nginx配置文件,找到server定義部分。該文件可能會放在不同的地方,這取決于你的nginx配置或Linux版本(如,/etc/nginx/nginx.conf,/etc/nginx/sites-enabled/<your-site>,/usr/local/nginx/conf/nginx.conf,/etc/nginx/conf.d/<your-site>)。
listen 80 default_server;
server_name xmodulo.com;
root /usr/share/nginx/html;
....
}
在打開該配置文件并找到 server 部分后,添加以下 if 聲明到該部分內(nèi)的某個地方。
listen 80 default_server;
server_name xmodulo.com;
root /usr/share/nginx/html;
# 大小寫敏感的匹配
if ($http_user_agent ~ (Antivirx|Arian) {
return 403;
}
#大小寫無關(guān)的匹配
return 403;
}
....
}
如你所想,這些 if 聲明使用正則表達式匹配了任意不良用戶字符串,并向匹配的對象返回403 HTTP狀態(tài)碼。 $http_user_agent是HTTP請求中的一個包含有用戶代理字符串的變量?!畘'操作符針對用戶代理字符串進行大小寫敏感匹配,而‘~*'操作符則進行大小寫無關(guān)匹配。‘|'操作符是邏輯或,因此,你可以在 if 聲明中放入眾多的用戶代理關(guān)鍵字,然后將它們?nèi)孔钃醯簟?/p>
在修改配置文件后,你必須重新加載nginx以激活阻擋:
$ sudo /path/to/nginx -s reload
你可以通過使用帶有 “--user-agent” 選項的 wget 測試用戶代理阻擋。
$ wget --user-agent "malicious bot" http://<nginx-ip-address>

管理Nginx中的用戶代理黑名單
目前為止,我已經(jīng)展示了在nginx中如何阻擋一些用戶代理的HTTP請求。如果你有許多不同類型的網(wǎng)絡爬蟲機器人要阻擋,又該怎么辦呢?
由于用戶代理黑名單會增長得很大,所以將它們放在nginx的server部分不是個好點子。取而代之的是,你可以創(chuàng)建一個獨立的文件,在該文件中列出所有被阻擋的用戶代理。例如,讓我們創(chuàng)建/etc/nginx/useragent.rules,并定義以下面的格式定義所有被阻擋的用戶代理的圖譜。
$ sudo vi /etc/nginx/useragent.rules
default 0;
~*malicious 1;
~*backdoor 1;
~*netcrawler 1;
~Antivirx 1;
~Arian 1;
~webbandit 1;
}
與先前的配置類似,‘~*'將匹配以大小寫不敏感的方式匹配關(guān)鍵字,而‘~'將使用大小寫敏感的正則表達式匹配關(guān)鍵字?!癲efault 0”行所表達的意思是,任何其它文件中未被列出的用戶代理將被允許。
接下來,打開你的網(wǎng)站的nginx配置文件,找到里面包含 http 的部分,然后添加以下行到 http 部分某個位置。
.....
include /etc/nginx/useragent.rules
}
注意,該 include 聲明必須出現(xiàn)在 server 部分之前(這就是為什么我們將它添加到了 http 部分里)。
現(xiàn)在,打開nginx配置定義你的服務器的部分,添加以下 if 聲明:
....
if ($badagent) {
return 403;
}
....
}
最后,重新加載nginx。
$ sudo /path/to/nginx -s reload
現(xiàn)在,任何包含有/etc/nginx/useragent.rules中列出的關(guān)鍵字的用戶代理將被nginx自動禁止。
相關(guān)文章
nginx proxy_set_header的具體實現(xiàn)
proxy_set_header?是 Nginx 配置中的一個重要指令,本文主要介紹了nginx proxy_set_header的具體實現(xiàn),具有一定的參考價值,感興趣的可以了解一下2024-07-07
Nginx中使用gzip_http_version解決CDN只支持http 1.0問題
這篇文章主要介紹了Nginx中使用gzip_http_version解決CDN只支持http 1.0問題,問題原因是在Header信息中看到Transfer-Encoding: chunked,使用本文方法就可以解決這個問題,需要的朋友可以參考下2014-09-09
Nginx利用Logrotate實現(xiàn)日志分割的詳細過程
nginx日志分割是很常見的運維工作,下面這篇文章主要給大家介紹了關(guān)于Nginx利用Logrotate日志分割的詳細過程,文中通過示例代碼介紹的非常詳細,需要的朋友可以參考下2022-05-05

