Python實現(xiàn)抓取頁面上鏈接的簡單爬蟲分享
除了C/C++以外,我也接觸過不少流行的語言,PHP、java、javascript、python,其中python可以說是操作起來最方便,缺點最少的語言了。
前幾天想寫爬蟲,后來跟朋友商量了一下,決定過幾天再一起寫。爬蟲里重要的一部分是抓取頁面中的鏈接,我在這里簡單的實現(xiàn)一下。
首先我們需要用到一個開源的模塊,requests。這不是python自帶的模塊,需要從網(wǎng)上下載、解壓與安裝:
windows用戶直接點擊下載。解壓后再本地使用命令python setup.py install安裝即可。 https://github.com/kennethreitz/requests/zipball/master
這個模塊的文檔我也正在慢慢翻譯,翻譯完了就給大家傳上來(英文版先發(fā)在附件里)。就像它的說明里面說的那樣,built for human beings,為人類而設(shè)計。使用它很方便,自己看文檔。最簡單的,requests.get()就是發(fā)送一個get請求。
代碼如下:
# coding:utf-8
import re
import requests
# 獲取網(wǎng)頁內(nèi)容
r = requests.get('http://www.163.com')
data = r.text
# 利用正則查找所有連接
link_list =re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" ,data)
for url in link_list:
print url
首先import進(jìn)re和requests模塊,re模塊是使用正則表達(dá)式的模塊。
data = requests.get('http://www.163.com'),向網(wǎng)易首頁提交get請求,得到一個requests對象r,r.text就是獲得的網(wǎng)頁源代碼,保存在字符串data中。
再利用正則查找data中所有的鏈接,我的正則寫的比較粗糙,直接把href=""或href=''之間的信息獲取到,這就是我們要的鏈接信息。
re.findall返回的是一個列表,用for循環(huán)遍歷列表并輸出:

這是我獲取到的所有連接的一部分。
上面是獲取網(wǎng)站里所有鏈接的一個簡單的實現(xiàn),沒有處理任何異常,沒有考慮到超鏈接的類型,代碼僅供參考。requests模塊文檔見附件。
相關(guān)文章
django認(rèn)證系統(tǒng)實現(xiàn)自定義權(quán)限管理的方法
今天小編就為大家分享一篇django認(rèn)證系統(tǒng)實現(xiàn)自定義權(quán)限管理的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-08-08
Python用Bottle輕量級框架進(jìn)行Web開發(fā)
這篇文章主要介紹了Python用Bottle輕量級框架進(jìn)行Web開發(fā)的相關(guān)資料,需要的朋友可以參考下2016-06-06
Python獲取系統(tǒng)默認(rèn)字符編碼的方法
這篇文章主要介紹了Python獲取系統(tǒng)默認(rèn)字符編碼的方法,涉及Python中sys模塊getdefaultencoding方法的使用技巧,需要的朋友可以參考下2015-06-06
Python的type()函數(shù)用法小結(jié)(最新推薦)
在本文中,深入探討了type()函數(shù)的用法,提供了詳細(xì)的示例代碼,并討論了其在Python編程中的實際應(yīng)用,通過學(xué)習(xí)如何正確使用type()函數(shù),可以更好地掌握Python編程,并寫出更可靠的代碼,需要的朋友可以參考下2024-07-07
Python調(diào)用GPT3.5接口的最新方法實例詳解
這篇文章主要介紹了Python調(diào)用GPT3.5接口的最新方法,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2023-03-03
OpenCV實現(xiàn)車輛識別和運動目標(biāo)檢測
本文主要介紹了OpenCV實現(xiàn)車輛識別和運動目標(biāo)檢測,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2022-08-08
Pandas中的unique()和nunique()區(qū)別詳解
Pandas中Series和DataFrame的兩種數(shù)據(jù)類型中都有nunique()和unique()方法,本文詳細(xì)的介紹了兩者的區(qū)別,具有一定的參考價值,感興趣的可以了解一下2022-08-08

