python抽取指定url頁(yè)面的title方法
今天簡(jiǎn)單使用了一下python的re模塊和lxml模塊,分別利用的它們提供的正則表達(dá)式和xpath來(lái)解析頁(yè)面源碼從中提取所需的title,xpath在完成這樣的小任務(wù)上效率非常好,在這里之所以又使用了一下正則表達(dá)式是因?yàn)閤path在處理一些特殊的頁(yè)面的時(shí)候會(huì)出現(xiàn)亂碼的情況,當(dāng)然這不是xpath的原因,而是頁(yè)面本身編碼,跟utf-8轉(zhuǎn)碼之間有沖突所致,這里看代碼:
# !/usr/bin/python
#-*-coding:utf-8-*-
'''
功能:抽取指定url的頁(yè)面內(nèi)容中的title
'''
import re
import chardet
import urllib
from lxml import etree
def utf8_transfer(strs):
'''
utf8編碼轉(zhuǎn)換
'''
try:
if isinstance(strs, unicode):
strs = strs.encode('utf-8')
elif chardet.detect(strs)['encoding'] == 'GB2312':
strs = strs.decode("gb2312", 'ignore').encode('utf-8')
elif chardet.detect(strs)['encoding'] == 'utf-8':
strs = strs.decode('utf-8', 'ignore').encode('utf-8')
except Exception, e:
print 'utf8_transfer error', strs, e
return strs
def get_title_xpath(Html):
'''
用xpath抽取網(wǎng)頁(yè)Title
'''
Html = utf8_transfer(Html)
Html_encoding = chardet.detect(Html)['encoding']
page = etree.HTML(Html, parser=etree.HTMLParser(encoding=Html_encoding))
title = page.xpath('/html/head/title/text()')
try:
title = title[0].strip()
except IndexError:
print 'Nothing'
print title
def get_title(Html):
'''
用re抽取網(wǎng)頁(yè)Title
'''
Html = utf8_transfer(Html)
compile_rule = ur'<title>.*</title>'
title_list = re.findall(compile_rule, Html)
if title_list == []:
title = ''
else:
title = title_list[0][7:-8]
print title
if __name__ == '__main__':
url = 'http://www.baidu.com'
html = urllib.urlopen(url).read()
new_html = utf8_transfer(html)
try:
get_title_xpath(new_html)
get_title(new_html)
except Exception, e:
print e
下面是結(jié)果:
百度一下,你就知道
百度一下,你就知道
簡(jiǎn)單的小實(shí)踐,繼續(xù)學(xué)習(xí),歡迎交流。
以上這篇python抽取指定url頁(yè)面的title方法就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python如何快速實(shí)現(xiàn)分布式任務(wù)
這篇文章主要介紹了Python如何快速實(shí)現(xiàn)分布式任務(wù),小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2017-07-07
python中ImageTk.PhotoImage()不顯示圖片卻不報(bào)錯(cuò)問(wèn)題解決
這篇文章主要給大家介紹了關(guān)于在python中ImageTk.PhotoImage()不顯示圖片卻不報(bào)錯(cuò)問(wèn)題的解決方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2018-12-12
Python?pytest自動(dòng)化測(cè)試庫(kù)十個(gè)強(qiáng)大用法示例
本文將介紹Python的pytest庫(kù)的10個(gè)強(qiáng)大用法,并提供相應(yīng)的代碼示例,幫助你更好地理解和應(yīng)用單元測(cè)試,它提供了許多高級(jí)功能和便利的用法,能夠讓我們更輕松地編寫和執(zhí)行單元測(cè)試2024-01-01
對(duì)Python中的@classmethod用法詳解
下面小編就為大家分享一篇對(duì)Python中的@classmethod用法詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-04-04
Django模塊學(xué)習(xí)之模塊語(yǔ)言詳解
模板語(yǔ)言渲染的整個(gè)過(guò)程其實(shí)就是將html轉(zhuǎn)換成函數(shù),并為該函數(shù)提供全局變量,然后執(zhí)行該函數(shù),下面這篇文章主要給大家介紹了關(guān)于Django模塊學(xué)習(xí)之模塊語(yǔ)言的相關(guān)資料,需要的朋友可以參考下2021-11-11

