使用Python多線(xiàn)程爬蟲(chóng)爬取電影天堂資源
最近花些時(shí)間學(xué)習(xí)了一下Python,并寫(xiě)了一個(gè)多線(xiàn)程的爬蟲(chóng)程序來(lái)獲取電影天堂上資源的迅雷下載地址,代碼已經(jīng)上傳到GitHub上了,需要的同學(xué)可以自行下載。剛開(kāi)始學(xué)習(xí)python希望可以獲得寶貴的意見(jiàn)。
先來(lái)簡(jiǎn)單介紹一下,網(wǎng)絡(luò)爬蟲(chóng)的基本實(shí)現(xiàn)原理吧。一個(gè)爬蟲(chóng)首先要給它一個(gè)起點(diǎn),所以需要精心選取一些URL作為起點(diǎn),然后我們的爬蟲(chóng)從這些起點(diǎn)出發(fā),抓取并解析所抓取到的頁(yè)面,將所需要的信息提取出來(lái),同時(shí)獲得的新的URL插入到隊(duì)列中作為下一次爬取的起點(diǎn)。這樣不斷地循環(huán),一直到獲得你想得到的所有的信息爬蟲(chóng)的任務(wù)就算結(jié)束了。我們通過(guò)一張圖片來(lái)看一下。

好的 下面進(jìn)入正題,來(lái)講解下程序的實(shí)現(xiàn)。
首先要分析一下電影天堂網(wǎng)站的首頁(yè)結(jié)構(gòu)。

從上面的菜單欄中我們可以看到整個(gè)網(wǎng)站資源的總體分類(lèi)情況。剛剛好我們可以利用到它的這個(gè)分類(lèi),將每一個(gè)分類(lèi)地址作為爬蟲(chóng)的起點(diǎn)。
①解析首頁(yè)地址 提取分類(lèi)信息
#解析首頁(yè)
def CrawIndexPage(starturl):
print "正在爬取首頁(yè)"
page = __getpage(starturl)
if page=="error":
return
page = page.decode('gbk', 'ignore')
tree = etree.HTML(page)
Nodes = tree.xpath("http://div[@id='menu']//a")
print "首頁(yè)解析出地址",len(Nodes),"條"
for node in Nodes:
CrawledURLs = []
CrawledURLs.append(starturl)
url=node.xpath("@href")[0]
if re.match(r'/html/[A-Za-z0-9_/]+/index.html', url):
if __isexit(host + url,CrawledURLs):
pass
else:
try:
catalog = node.xpath("text()")[0].encode("utf-8")
newdir = "E:/電影資源/" + catalog
os.makedirs(newdir.decode("utf-8"))
print "創(chuàng)建分類(lèi)目錄成功------"+newdir
thread = myThread(host + url, newdir,CrawledURLs)
thread.start()
except:
pass
在這個(gè)函數(shù)中,首先將網(wǎng)頁(yè)的源碼下載下來(lái),通過(guò)XPath解析出其中的菜單分類(lèi)信息。并創(chuàng)建相應(yīng)的文件目錄。有一個(gè)需要注意的地方就是編碼問(wèn)題,但是也是被這個(gè)編碼糾纏了好久,通過(guò)查看網(wǎng)頁(yè)的源代碼,我們可以發(fā)現(xiàn),網(wǎng)頁(yè)的編碼采用的是GB2312,這里通過(guò)XPath構(gòu)造Tree對(duì)象是需要對(duì)文本信息進(jìn)行解碼操作,將gb2312變成Unicode編碼,這樣DOM樹(shù)結(jié)構(gòu)才是正確的,要不然在后面解析的時(shí)候就會(huì)出現(xiàn)問(wèn)題。
②解析每個(gè)分類(lèi)的主頁(yè)
# 解析分類(lèi)文件
def CrawListPage(indexurl,filedir,CrawledURLs):
print "正在解析分類(lèi)主頁(yè)資源"
print indexurl
page = __getpage(indexurl)
if page=="error":
return
CrawledURLs.append(indexurl)
page = page.decode('gbk', 'ignore')
tree = etree.HTML(page)
Nodes = tree.xpath("http://div[@class='co_content8']//a")
for node in Nodes:
url=node.xpath("@href")[0]
if re.match(r'/', url):
# 非分頁(yè)地址 可以從中解析出視頻資源地址
if __isexit(host + url,CrawledURLs):
pass
else:
#文件命名是不能出現(xiàn)以下特殊符號(hào)
filename=node.xpath("text()")[0].encode("utf-8").replace("/"," ")\
.replace("\\"," ")\
.replace(":"," ")\
.replace("*"," ")\
.replace("?"," ")\
.replace("\""," ")\
.replace("<", " ") \
.replace(">", " ")\
.replace("|", " ")
CrawlSourcePage(host + url,filedir,filename,CrawledURLs)
pass
else:
# 分頁(yè)地址 從中嵌套再次解析
print "分頁(yè)地址 從中嵌套再次解析",url
index = indexurl.rfind("/")
baseurl = indexurl[0:index + 1]
pageurl = baseurl + url
if __isexit(pageurl,CrawledURLs):
pass
else:
print "分頁(yè)地址 從中嵌套再次解析", pageurl
CrawListPage(pageurl,filedir,CrawledURLs)
pass
pass
打開(kāi)每一個(gè)分類(lèi)的首頁(yè)會(huì)發(fā)現(xiàn)都有一個(gè)相同的結(jié)構(gòu)(點(diǎn)擊打開(kāi)示例)首先解析出包含資源URL的節(jié)點(diǎn),然后將名稱(chēng)和URL提取出來(lái)。這一部分有兩個(gè)需要注意的地方。一是因?yàn)樽罱K想要把資源保存到一個(gè)txt文件中,但是在命名時(shí)不能出現(xiàn)一些特殊符號(hào),所以需要處理掉。二是一定要對(duì)分頁(yè)進(jìn)行處理,網(wǎng)站中的數(shù)據(jù)都是通過(guò)分頁(yè)這種形式展示的,所以如何識(shí)別并抓取分頁(yè)也是很重要的。通過(guò)觀察發(fā)現(xiàn),分頁(yè)的地址前面沒(méi)有“/”,所以只需要通過(guò)正則表達(dá)式找出分頁(yè)地址鏈接,然后嵌套調(diào)用即可解決分頁(yè)問(wèn)題。
③解析資源地址保存到文件中
#處理資源頁(yè)面 爬取資源地址
def CrawlSourcePage(url,filedir,filename,CrawledURLs):
print url
page = __getpage(url)
if page=="error":
return
CrawledURLs.append(url)
page = page.decode('gbk', 'ignore')
tree = etree.HTML(page)
Nodes = tree.xpath("http://div[@align='left']//table//a")
try:
source = filedir + "/" + filename + ".txt"
f = open(source.decode("utf-8"), 'w')
for node in Nodes:
sourceurl = node.xpath("text()")[0]
f.write(sourceurl.encode("utf-8")+"\n")
f.close()
except:
print "!!!!!!!!!!!!!!!!!"
這段就比較簡(jiǎn)單了,將提取出來(lái)的內(nèi)容寫(xiě)到一個(gè)文件中就行了
為了能夠提高程序的運(yùn)行效率,使用了多線(xiàn)程進(jìn)行抓取,在這里我是為每一個(gè)分類(lèi)的主頁(yè)都開(kāi)辟了一個(gè)線(xiàn)程,這樣極大地加快了爬蟲(chóng)的效率。想當(dāng)初,只是用單線(xiàn)程去跑,結(jié)果等了一下午最后因?yàn)橐粋€(gè)異常沒(méi)處理到結(jié)果一下午都白跑了?。。?!心累
class myThread (threading.Thread): #繼承父類(lèi)threading.Thread def __init__(self, url, newdir,CrawledURLs): threading.Thread.__init__(self) self.url = url self.newdir = newdir self.CrawledURLs=CrawledURLs def run(self): #把要執(zhí)行的代碼寫(xiě)到run函數(shù)里面 線(xiàn)程在創(chuàng)建后會(huì)直接運(yùn)行run函數(shù) CrawListPage(self.url, self.newdir,self.CrawledURLs)
以上只是部分代碼,全部代碼可以到GitHub上面去下載(點(diǎn)我跳轉(zhuǎn))
最后爬取的結(jié)果如下。



以上所述是小編給大家介紹的使用Python多線(xiàn)程爬蟲(chóng)爬取電影天堂資源 ,希望對(duì)大家有所幫助,如果大家有任何疑問(wèn)請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!
相關(guān)文章
幫你快速上手Jenkins并實(shí)現(xiàn)自動(dòng)化部署
在未學(xué)習(xí)Jenkins之前,只是對(duì)Jenkins有一個(gè)比較模糊的理解,即Jenkins是一個(gè)自動(dòng)化構(gòu)建項(xiàng)目發(fā)布的工具,可以實(shí)現(xiàn)代碼->github或者gitlab庫(kù)->jenkins自動(dòng)部署->訪問(wèn)的整體的過(guò)程,而無(wú)需人為重新打包,今天就帶大家詳細(xì)了解一下,幫你快速上手Jenkins,需要的朋友可以參考下2021-06-06
Python3轉(zhuǎn)換html到pdf的不同解決方案
今天小編就為大家分享一篇關(guān)于Python3轉(zhuǎn)換html到pdf的不同解決方案,小編覺(jué)得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來(lái)看看吧2019-03-03
python遍歷 truple list dictionary的幾種方法總結(jié)
下面小編就為大家?guī)?lái)一篇python遍歷 truple list dictionary的幾種方法總結(jié)。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2016-09-09
Python 使用with上下文實(shí)現(xiàn)計(jì)時(shí)功能
with 語(yǔ)句適用于對(duì)資源進(jìn)行訪問(wèn)的場(chǎng)合,確保不管使用過(guò)程中是否發(fā)生異常都會(huì)執(zhí)行必要的“清理”操作,釋放資源,比如文件使用后自動(dòng)關(guān)閉、線(xiàn)程中鎖的自動(dòng)獲取和釋放等。這篇文章主要介紹了Python 使用with上下文實(shí)現(xiàn)計(jì)時(shí),需要的朋友可以參考下2018-03-03
python編寫(xiě)WAF與Sqlmap結(jié)合實(shí)現(xiàn)指紋探測(cè)
這篇文章主要為大家介紹了python編寫(xiě)WAF指紋探測(cè)并與Sqlmap結(jié)合的示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-05-05
python保留小數(shù)點(diǎn)位數(shù)的多種方式(附demo)
在Python中,保留小數(shù)點(diǎn)后特定位數(shù)可以通過(guò)多種方式實(shí)現(xiàn),以下是幾種常見(jiàn)的方法,并附上相應(yīng)的代碼示例,使用字符串格式化,使用round()函數(shù),使用Decimal模塊和使用numpy庫(kù),文中通過(guò)代碼講解的非常詳細(xì),需要的朋友可以參考下2024-06-06
Python GUI之tkinter窗口視窗教程大集合(推薦)
這篇文章主要介紹了Python GUI之tkinter窗口視窗教程大集合,看這一篇教程足了,本文通過(guò)圖文實(shí)例相結(jié)合給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-10-10

