python分布式爬蟲中消息隊列知識點詳解
當排隊等待人數(shù)過多的時候,我們需要設置一個等待區(qū)防止秩序混亂,同時再有新來的想要排隊也可以呆在這個地方。那么在python分布式爬蟲中,消息隊列就相當于這樣的一個區(qū)域,爬蟲要進入這個區(qū)域找尋自己想要的資源,當然這個是一定的次序的,不然數(shù)據(jù)獲取就會出現(xiàn)重復。就下來我們就python分布式爬蟲中的消息隊列進行詳細解釋,小伙伴們可以進一步了解一下。
實現(xiàn)分布式爬取的關鍵是消息隊列,這個問題以消費端為視角更容易理解。你的爬蟲程序部署到很多臺機器上,那么他們怎么知道自己要爬什么呢?總要有一個地方存儲了他們需要爬取的url吧,這樣他們才能工作。
假設有1萬個url需要爬取,而你有100個爬蟲程序部署在10臺機器上,每臺10個爬蟲程序在運行,一個url被分給爬蟲程序后,其他爬蟲不能再獲得這個url,不然,就重復爬取了,理解吧,分布式爬蟲的關鍵是怎么把任務分給這些爬蟲。
有些促銷活動的現(xiàn)場會進行抽獎活動,工作人員捧著一個透明的箱子,參與活動的人從箱子的小口處把手伸進去隨機拿出一張折疊的紙條,這種模式與消息隊列十分相似。消息隊列就好比這個抽獎的箱子,消費端的爬蟲程序就好比參與活動的顧客,爬蟲從消息隊列里拿出一個url任務,然后進行爬取,不同于抽獎活動時一個人只能拿一次,分布式爬蟲允許爬蟲在結束一個爬蟲任務后繼續(xù)從消息隊列里獲取任務。
使用redis的隊列做消息隊列
如果你只是簡單的寫一個分布式爬蟲,那么使用redis的隊列就可以了,它完全可以作為消息隊列來使用,下面的代碼是生產(chǎn)端的代碼示例
import redis
r = redis.Redis(host='127.0.0.1', port=6379,
password='yourpassword', db=1)
# 生產(chǎn)10個url任務
for i in range(10):
r.lpush('url_queue', i)
相信看完以上的代碼示例后,小伙伴們已經(jīng)學會用redis創(chuàng)造一個消息隊列,用來方便爬蟲的獲取數(shù)據(jù)。本篇是以生產(chǎn)段的角度寫的代碼
到此這篇關于python分布式爬蟲中消息隊列知識點詳解的文章就介紹到這了,更多相關python分布式爬蟲中的消息隊列是什么內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
- python線程優(yōu)先級隊列知識點總結
- 如何通過Python實現(xiàn)RabbitMQ延遲隊列
- Python通過隊列來實現(xiàn)進程間通信的示例
- Python collections.deque雙邊隊列原理詳解
- 基于python實現(xiàn)操作redis及消息隊列
- Python Celery異步任務隊列使用方法解析
- Python實現(xiàn)一個優(yōu)先級隊列的方法
- Python如何使用隊列方式實現(xiàn)多線程爬蟲
- Python多線程通信queue隊列用法實例分析
- python3 deque 雙向隊列創(chuàng)建與使用方法分析
- Python實現(xiàn)隊列的方法示例小結【數(shù)組,鏈表】
- 詳解python數(shù)據(jù)結構之隊列Queue
相關文章
Python實現(xiàn)Windows上氣泡提醒效果的方法
這篇文章主要介紹了Python實現(xiàn)Windows上氣泡提醒效果的方法,涉及Python針對windows窗口操作的相關技巧,需要的朋友可以參考下2015-06-06
pytorch實現(xiàn)特殊的Module--Sqeuential三種寫法
今天小編就為大家分享一篇pytorch實現(xiàn)特殊的Module--Sqeuential三種寫法。具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-01-01
Python日期與時間模塊(datetime+time+Calendar+dateuil?)相關使用講解
這篇文章主要介紹了Python日期與時間模塊(datetime+time+Calendar+dateuil?)相關使用講解,文章圍繞主題展開詳細的內(nèi)容戒殺,具有一定的參考價值,需要的朋友可以參考一下2022-09-09
解讀FastAPI異步化為transformers模型打造高性能接口
這篇文章主要介紹了解讀FastAPI異步化為transformers模型打造高性能接口問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2024-06-06

