用Python程序抓取網(wǎng)頁的HTML信息的一個小實(shí)例
抓取網(wǎng)頁數(shù)據(jù)的思路有好多種,一般有:直接代碼請求http、模擬瀏覽器請求數(shù)據(jù)(通常需要登錄驗(yàn)證)、控制瀏覽器實(shí)現(xiàn)數(shù)據(jù)抓取等。這篇不考慮復(fù)雜情況,放一個讀取簡單網(wǎng)頁數(shù)據(jù)的小例子:
目標(biāo)數(shù)據(jù)
將ittf網(wǎng)站上這個頁面上所有這些選手的超鏈接保存下來。

數(shù)據(jù)請求
真的很喜歡符合人類思維的庫,比如requests,如果是要直接拿網(wǎng)頁文本,一句話搞定:
doc = requests.get(url).text
解析html獲得數(shù)據(jù)
以beautifulsoup為例,包含獲取標(biāo)簽、鏈接,以及根據(jù)html層次結(jié)構(gòu)遍歷等方法。參考見這里。下面這個片段,從ittf網(wǎng)站上獲取指定頁面上指定位置的鏈接。
url = 'http://www.ittf.com/ittf_ranking/WR_Table_3_A2.asp?Age_category_1=&Age_category_2=&Age_category_3=&Age_category_4=&Age_category_5=&Category=100W&Cont=&Country=&Gender=W&Month1=4&Year1=2015&s_Player_Name=&Formv_WR_Table_3_Page='+str(page)
doc = requests.get(url).text
soup = BeautifulSoup(doc)
atags = soup.find_all('a')
rank_link_pre = 'http://www.ittf.com/ittf_ranking/'
mlfile = open(linkfile,'a')
for atag in atags:
#print atag
if atag!=None and atag.get('href') != None:
if "WR_Table_3_A2_Details.asp" in atag['href']:
link = rank_link_pre + atag['href']
links.append(link)
mlfile.write(link+'\n')
print 'fetch link: '+link
mlfile.close()
- Python如何使用BeautifulSoup爬取網(wǎng)頁信息
- Python使用正則表達(dá)式獲取網(wǎng)頁中所需要的信息
- Python爬蟲實(shí)現(xiàn)網(wǎng)頁信息抓取功能示例【URL與正則模塊】
- 在Python中使用cookielib和urllib2配合PyQuery抓取網(wǎng)頁信息
- python使用BeautifulSoup分析網(wǎng)頁信息的方法
- python爬蟲爬取網(wǎng)頁數(shù)據(jù)并解析數(shù)據(jù)
- python如何爬取動態(tài)網(wǎng)站
- python 爬取B站原視頻的實(shí)例代碼
- Python爬取網(wǎng)頁信息的示例
相關(guān)文章
python 實(shí)現(xiàn)在無序數(shù)組中找到中位數(shù)方法
這篇文章主要介紹了python 實(shí)現(xiàn)在無序數(shù)組中找到中位數(shù)方法,具有很好對參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-03-03
通過python實(shí)現(xiàn)windows桌面截圖代碼實(shí)例
這篇文章主要介紹了python實(shí)現(xiàn)windows桌面截圖代碼實(shí)例,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-01-01
python中opencv K均值聚類的實(shí)現(xiàn)示例
本文主要介紹了python中opencv K均值聚類的實(shí)現(xiàn)示例,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2022-06-06
快速進(jìn)修Python指南之函數(shù)進(jìn)階
這篇文章主要為大家介紹了Java開發(fā)者快速進(jìn)修Python指南之函數(shù)進(jìn)階示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-12-12
Python Django 簡單分頁的實(shí)現(xiàn)代碼解析
這篇文章主要介紹了Python Django 簡單分頁的實(shí)現(xiàn)代碼解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2019-08-08

