Python3爬蟲里關(guān)于Splash負載均衡配置詳解
用Splash做頁面抓取時,如果爬取的量非常大,任務非常多,用一個Splash服務來處理的話,未免壓力太大了,此時可以考慮搭建一個負載均衡器來把壓力分散到各個服務器上。這相當于多臺機器多個服務共同參與任務的處理,可以減小單個Splash服務的壓力。
1. 配置Splash服務
要搭建Splash負載均衡,首先要有多個Splash服務。假如這里在4臺遠程主機的8050端口上都開啟了Splash服務,它們的服務地址分別為41.159.27.223:8050、41.159.27.221:8050、41.159.27.9:8050和41.159.117.119:8050,這4個服務完全一致,都是通過Docker的Splash鏡像開啟的。訪問其中任何一個服務時,都可以使用Splash服務。
2. 配置負載均衡
接下來,可以選用任意一臺帶有公網(wǎng)IP的主機來配置負載均衡。首先,在這臺主機上裝好Nginx,然后修改Nginx的配置文件nginx.conf,添加如下內(nèi)容:
http {
upstream splash {
least_conn;
server 41.159.27.223:8050;
server 41.159.27.221:8050;
server 41.159.27.9:8050;
server 41.159.117.119:8050;
}
server {
listen 8050;
location / {
proxy_pass http://splash;
}
}
}
這樣我們通過upstream字段定義了一個名字叫作splash的服務集群配置。其中l(wèi)east_conn代表最少鏈接負載均衡,它適合處理請求處理時間長短不一造成服務器過載的情況。
當然,我們也可以不指定配置,具體如下:
upstream splash {
server 41.159.27.223:8050;
server 41.159.27.221:8050;
server 41.159.27.9:8050;
server 41.159.117.119:8050;
}
這樣默認以輪詢策略實現(xiàn)負載均衡,每個服務器的壓力相同。此策略適合服務器配置相當、無狀態(tài)且短平快的服務使用。
另外,我們還可以指定權(quán)重,配置如下:
upstream splash {
server 41.159.27.223:8050 weight=4;
server 41.159.27.221:8050 weight=2;
server 41.159.27.9:8050 weight=2;
server 41.159.117.119:8050 weight=1;
}
這里weight參數(shù)指定各個服務的權(quán)重,權(quán)重越高,分配到處理的請求越多。假如不同的服務器配置差別比較大的話,可以使用此種配置。
最后,還有一種IP散列負載均衡,配置如下:
upstream splash {
ip_hash;
server 41.159.27.223:8050;
server 41.159.27.221:8050;
server 41.159.27.9:8050;
server 41.159.117.119:8050;
}
服務器根據(jù)請求客戶端的IP地址進行散列計算,確保使用同一個服務器響應請求,這種策略適合有狀態(tài)的服務,比如用戶登錄后訪問某個頁面的情形。對于Splash來說,不需要應用此設(shè)置。
我們可以根據(jù)不同的情形選用不同的配置,配置完成后重啟一下Nginx服務:
sudo nginx -s reload
這樣直接訪問Nginx所在服務器的8050端口,即可實現(xiàn)負載均衡了。
3. 配置認證
現(xiàn)在Splash是可以公開訪問的,如果不想讓其公開訪問,還可以配置認證,這仍然借助于Nginx??梢栽趕erver的location字段中添加auth_basic和auth_basic_user_file字段,具體配置如下:
http {
upstream splash {
least_conn;
server 41.159.27.223:8050;
server 41.159.27.221:8050;
server 41.159.27.9:8050;
server 41.159.117.119:8050;
}
server {
listen 8050;
location / {
proxy_pass http://splash;
auth_basic "Restricted";
auth_basic_user_file /etc/nginx/conf.d/.htpasswd;
}
}
}
這里使用的用戶名和密碼配置放置在/etc/nginx/conf.d目錄下,我們需要使用htpasswd命令創(chuàng)建。例如,創(chuàng)建一個用戶名為admin的文件,相關(guān)命令如下:
htpasswd -c .htpasswd admin
接下來就會提示我們輸入密碼,輸入兩次之后,就會生成密碼文件,其內(nèi)容如下:
cat .htpasswd admin:5ZBxQr0rCqwbc
配置完成后,重啟一下Nginx服務:
sudo nginx -s reload
這樣訪問認證就成功配置好了。
4. 測試
最后,我們可以用代碼來測試一下負載均衡的配置,看看到底是不是每次請求會切換IP。利用http://httpbin.org/get測試即可,實現(xiàn)代碼如下:
import requests
from urllib.parse import quote
import re
lua = '''
function main(splash, args)
local treat = require("treat")
local response = splash:http_get("http://httpbin.org/get")
return treat.as_string(response.body)
end
'''
url = 'http://splash:8050/execute?lua_source=' + quote(lua)
response = requests.get(url, auth=('admin', 'admin'))
ip = re.search('(\d+\.\d+\.\d+\.\d+)', response.text).group(1)
print(ip)
這里URL中的splash字符串請自行替換成自己的Nginx服務器IP。這里我修改了Hosts,設(shè)置了splash為Nginx服務器IP。
多次運行代碼之后,可以發(fā)現(xiàn)每次請求的IP都會變化,比如第一次的結(jié)果:
41.159.27.223
第二次的結(jié)果:
41.159.27.9
這就說明負載均衡已經(jīng)成功實現(xiàn)了。
本節(jié)中,我們成功實現(xiàn)了負載均衡的配置。配置負載均衡后,可以多個Splash服務共同合作,減輕單個服務的負載,這還是比較有用的。
到此這篇關(guān)于Python3爬蟲里關(guān)于Splash負載均衡配置詳解的文章就介紹到這了,更多相關(guān)Python3 Splash負載均衡配置內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python自動化之UnitTest框架實戰(zhàn)記錄
這篇文章主要給大家介紹了關(guān)于Python自動化之UnitTest框架實戰(zhàn)的相關(guān)資料,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2020-09-09
python字典各式各樣操作從基礎(chǔ)到高級全面示例詳解
在Python中,字典(Dictionary)是一種強大而靈活的數(shù)據(jù)結(jié)構(gòu),它允許你存儲和檢索鍵值對,本文將深入探討Python中各式各樣的字典操作,包括基本操作、高級操作以及一些實用的技巧,通過全面的示例代碼,將展示如何充分發(fā)揮字典在Python編程中的優(yōu)勢2023-12-12
Python使用socket的UDP協(xié)議實現(xiàn)FTP文件服務功能
這篇文章主要介紹了Python使用socket的UDP協(xié)議實現(xiàn)FTP文件服務,本示例主要是用Python的socket,使用UDP協(xié)議實現(xiàn)一個FTP服務端、FTP客戶端,用來實現(xiàn)文件的傳輸,需要的朋友可以參考下2023-10-10
Python生成ubuntu apt鏡像地址實現(xiàn)
本文主要介紹了Python生成ubuntu apt鏡像地址實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2023-05-05
淺談keras中的目標函數(shù)和優(yōu)化函數(shù)MSE用法
這篇文章主要介紹了淺談keras中的目標函數(shù)和優(yōu)化函數(shù)MSE用法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-06-06

