Python提取網(wǎng)頁中超鏈接的方法
更新時(shí)間:2016年09月18日 10:19:32 投稿:daisy
很多人在一開始學(xué)習(xí)Python,會打算用作爬蟲開發(fā)。既然要做爬蟲,首先就要抓取網(wǎng)頁,并且從網(wǎng)頁中提取出超鏈接地址。這篇文章給大家分享一個(gè)簡單的方法,有需要的可以參考借鑒。
下面是最簡單的實(shí)現(xiàn)方法,先將目標(biāo)網(wǎng)頁抓回來,然后通過正則匹配a標(biāo)簽中的href屬性來獲得超鏈接
代碼如下:
import urllib2 import re url = 'http://www.sunbloger.com/' req = urllib2.Request(url) con = urllib2.urlopen(req) doc = con.read() con.close() links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc) for a in links: print a
總結(jié)
以上就是這篇文章的全部內(nèi)容,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作能有所幫助,如果有疑問大家可以留言交流。
相關(guān)文章
Python調(diào)用scp向服務(wù)器上傳文件示例
今天小編就為大家分享一篇Python調(diào)用scp向服務(wù)器上傳文件示例,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-12-12
Python實(shí)現(xiàn)將MySQL數(shù)據(jù)庫查詢結(jié)果導(dǎo)出到Excel
在實(shí)際工作中,我們經(jīng)常需要將數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)出到Excel表格中進(jìn)行進(jìn)一步的分析和處理,Python中的pymysql和xlsxwriter庫提供了很好的解決方案,下面我們就來看看具體操作方法吧2023-11-11

