Python天氣預(yù)報(bào)采集器實(shí)現(xiàn)代碼(網(wǎng)頁(yè)爬蟲)
更新時(shí)間:2012年10月07日 00:36:02 作者:
這個(gè)天氣預(yù)報(bào)采集是從中國(guó)天氣網(wǎng)提取廣東省內(nèi)主要城市的天氣并回顯。本來是打算采集騰訊天氣的,但是貌似它的數(shù)據(jù)是用js寫上去還是什么的,得到的html文本中不包含數(shù)據(jù),所以就算了
爬蟲簡(jiǎn)單說來包括兩個(gè)步驟:獲得網(wǎng)頁(yè)文本、過濾得到數(shù)據(jù)。
1、獲得html文本。
python在獲取html方面十分方便,寥寥數(shù)行代碼就可以實(shí)現(xiàn)我們需要的功能。
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
page.close()
return html
這么幾行代碼相信不用注釋都能大概知道它的意思。
2、根據(jù)正則表達(dá)式等獲得需要的內(nèi)容。
使用正則表達(dá)式時(shí)需要仔細(xì)觀察該網(wǎng)頁(yè)信息的結(jié)構(gòu),并寫出正確的正則表達(dá)式。
python正則表達(dá)式的使用也很簡(jiǎn)潔。我的上一篇文章《Python的一些用法》介紹了一點(diǎn)正則的用法。這里需要一個(gè)新的用法:
def getWeather(html):
reg = '<a title=.*?>(.*?)</a>.*?<span>(.*?)</span>.*?<b>(.*?)</b>'
weatherList = re.compile(reg).findall(html)
return weatherList
其中reg是正則表達(dá)式,html是第一步獲得的文本。findall的作用是找到html中所有符合正則匹配的字符串并存放到weatherList中。之后再枚舉weatheList中的數(shù)據(jù)輸出即可。
這里的正則表達(dá)式reg有兩個(gè)地方要注意。
一個(gè)是“(.*?)”。只要是()中的內(nèi)容都是我們將要獲得的內(nèi)容,如果有多個(gè)括號(hào),那么findall的每個(gè)結(jié)果就都包含這幾個(gè)括號(hào)中的內(nèi)容。上面有三個(gè)括號(hào),分別對(duì)應(yīng)城市、最低溫和最高溫。
另一個(gè)是“.*?”。python的正則匹配默認(rèn)是貪婪的,即默認(rèn)盡可能多地匹配字符串。如果在末尾加上問號(hào),則表示非貪婪模式,即盡可能少地匹配字符串。在這里,由于有多個(gè)城市的信息需要匹配,所以需要使用非貪婪模式,否則匹配結(jié)果只剩下一個(gè),且是不正確的。
python的使用確實(shí)十分方便:)
1、獲得html文本。
python在獲取html方面十分方便,寥寥數(shù)行代碼就可以實(shí)現(xiàn)我們需要的功能。
復(fù)制代碼 代碼如下:
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
page.close()
return html
這么幾行代碼相信不用注釋都能大概知道它的意思。
2、根據(jù)正則表達(dá)式等獲得需要的內(nèi)容。
使用正則表達(dá)式時(shí)需要仔細(xì)觀察該網(wǎng)頁(yè)信息的結(jié)構(gòu),并寫出正確的正則表達(dá)式。
python正則表達(dá)式的使用也很簡(jiǎn)潔。我的上一篇文章《Python的一些用法》介紹了一點(diǎn)正則的用法。這里需要一個(gè)新的用法:
復(fù)制代碼 代碼如下:
def getWeather(html):
reg = '<a title=.*?>(.*?)</a>.*?<span>(.*?)</span>.*?<b>(.*?)</b>'
weatherList = re.compile(reg).findall(html)
return weatherList
其中reg是正則表達(dá)式,html是第一步獲得的文本。findall的作用是找到html中所有符合正則匹配的字符串并存放到weatherList中。之后再枚舉weatheList中的數(shù)據(jù)輸出即可。
這里的正則表達(dá)式reg有兩個(gè)地方要注意。
一個(gè)是“(.*?)”。只要是()中的內(nèi)容都是我們將要獲得的內(nèi)容,如果有多個(gè)括號(hào),那么findall的每個(gè)結(jié)果就都包含這幾個(gè)括號(hào)中的內(nèi)容。上面有三個(gè)括號(hào),分別對(duì)應(yīng)城市、最低溫和最高溫。
另一個(gè)是“.*?”。python的正則匹配默認(rèn)是貪婪的,即默認(rèn)盡可能多地匹配字符串。如果在末尾加上問號(hào),則表示非貪婪模式,即盡可能少地匹配字符串。在這里,由于有多個(gè)城市的信息需要匹配,所以需要使用非貪婪模式,否則匹配結(jié)果只剩下一個(gè),且是不正確的。
python的使用確實(shí)十分方便:)
您可能感興趣的文章:
- Python爬蟲天氣預(yù)報(bào)實(shí)例詳解(小白入門)
- Python爬蟲實(shí)例扒取2345天氣預(yù)報(bào)
- 用python爬取歷史天氣數(shù)據(jù)的方法示例
- Python爬取國(guó)外天氣預(yù)報(bào)網(wǎng)站的方法
- python3爬取各類天氣信息
- python可視化爬蟲界面之天氣查詢
- python爬取天氣數(shù)據(jù)的實(shí)例詳解
- Python3爬蟲之自動(dòng)查詢天氣并實(shí)現(xiàn)語音播報(bào)
- 基于Python爬蟲采集天氣網(wǎng)實(shí)時(shí)信息
- 如何利用python多線程爬取天氣網(wǎng)站圖片并保存
相關(guān)文章
Python中表達(dá)式x += y和x = x+y 的區(qū)別詳解
這篇文章主要跟大家介紹了關(guān)于Python中x += y和x = x+y 的區(qū)別的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來一起看看吧。2017-06-06
python 3利用Dlib 19.7實(shí)現(xiàn)攝像頭人臉檢測(cè)特征點(diǎn)標(biāo)定
這篇文章主要為大家詳細(xì)介紹了python 3利用Dlib 19.7實(shí)現(xiàn)攝像頭人臉檢測(cè)特征點(diǎn)標(biāo)定,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-02-02
Python面向?qū)ο蟪绦蛟O(shè)計(jì)多繼承和多態(tài)用法示例
這篇文章主要介紹了Python面向?qū)ο蟪绦蛟O(shè)計(jì)多繼承和多態(tài)用法,結(jié)合實(shí)例形式分析了Python面向?qū)ο蟪绦蛟O(shè)計(jì)中多繼承、多態(tài)的概念、原理、實(shí)現(xiàn)方法及相關(guān)操作注意事項(xiàng),需要的朋友可以參考下2019-04-04
Python利用filestools模塊實(shí)現(xiàn)水印添加
最近發(fā)現(xiàn)的這款filestools非標(biāo)準(zhǔn)庫(kù)其實(shí)真正實(shí)現(xiàn)添加水印的只要一個(gè)函數(shù)的調(diào)用,一行代碼即可完成水印的添加,感興趣的快跟隨小編一起學(xué)起來吧2022-09-09
python四個(gè)坐標(biāo)點(diǎn)對(duì)圖片區(qū)域最小外接矩形進(jìn)行裁剪
在圖像裁剪操作中,opencv和pillow兩個(gè)庫(kù)都具有相應(yīng)的函數(shù),如果想要對(duì)目標(biāo)的最小外接矩形進(jìn)行裁剪該如何操作呢?本文就來詳細(xì)的介紹一下2021-06-06

