Python Request爬取seo.chinaz.com百度權(quán)重網(wǎng)站的查詢結(jié)果過(guò)程解析
一:腳本需求
利用Python3查詢網(wǎng)站權(quán)重并自動(dòng)存儲(chǔ)在本地?cái)?shù)據(jù)庫(kù)(Mysql數(shù)據(jù)庫(kù))中,同時(shí)導(dǎo)出一份網(wǎng)站權(quán)重查詢結(jié)果的EXCEL表格
數(shù)據(jù)庫(kù)類型:MySql
數(shù)據(jù)庫(kù)表單名稱:website_weight
表單內(nèi)容及表頭設(shè)置:表頭包含有id、main_url(即要查詢的網(wǎng)站)、website_weight(網(wǎng)站權(quán)重)

要查詢的網(wǎng)站:EXCEL表格

二:需求實(shí)現(xiàn)
一:利用openpyxl模塊解析excel文件,將查詢的網(wǎng)站讀取到一個(gè)列表中保存
# 解析excel文件,取出所有的url def get_urls(file_path): wb = load_workbook(file_path) sheet = wb.active urls = [] for cell in list(sheet.columns)[1]: if cell != sheet['B1']: urls.append(cell.value) return wb, urls
二:分析請(qǐng)求發(fā)送,偽造請(qǐng)求,取得HTML頁(yè)面
# 偽造請(qǐng)求,取得html頁(yè)面
def get_html(url):
# 定義http的請(qǐng)求Header
headers = {}
# random.randint(1,99) 為了生成1到99之間的隨機(jī)數(shù),讓UserAgent變的不同。
headers[
'User-Agent'] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537." + str(
random.randint(1, 99))
# Referer地址使用待查詢的網(wǎng)址
headers['Referer'] = "http://seo.chinaz.com/" + url + "/"
html = ''
try:
html = requests.get("http://seo.chinaz.com/" + url + "/", headers=headers, timeout=5).text
except Exception:
pass
return html
三:分析HTML頁(yè)面,利用BeautifulSoup模塊提取數(shù)據(jù)
# 利用BeautifulSoup模塊從html頁(yè)面中提取數(shù)據(jù)
def get_data(html, url):
if not html:
return url, 0
soup = bs(html, "lxml")
p_tag = soup.select("p.ReLImgCenter")[0]
src = p_tag.img.attrs["src"]
regexp = re.compile(r'^http:.*?(\d).gif')
br = regexp.findall(src)[0]
return url, br
四:數(shù)據(jù)庫(kù)連接配置,并獲取游標(biāo)
# 連接數(shù)據(jù)庫(kù) def get_connect(): conn = pymysql.connect( host='127.0.0.1', port=3306, user='root', passwd='root', db='seotest', charset="utf8") # 獲取游標(biāo)對(duì)象 cursor = conn.cursor() return conn, cursor
五:主程序邏輯編寫
if __name__ == "__main__": #命令行執(zhí)行腳本文件,獲取excel文件路徑 file_path = sys.argv[1] #獲取URL列表和excle工作簿 wb, urls = get_urls(file_path) #獲取數(shù)據(jù)庫(kù)連接和游標(biāo) conn, cursor = get_connect() #獲取工作簿當(dāng)前工作sheet sheet = wb.active #數(shù)據(jù)庫(kù)插入語(yǔ)句 sql_insert = '''insert into website_weight(main_url, website_weight) values (%s, %s)''' for row, url in enumerate(urls): if not url: continue html = get_html(url) data = get_data(html, url) # 插入數(shù)據(jù)到數(shù)據(jù)庫(kù) cursor.execute(sql_insert, data) # 插入數(shù)據(jù)到Excel表中 cell = sheet.cell(row=row + 2, column=3) cell.value = data[1] # 終端打印插入的數(shù)據(jù) print(data) conn.commit() conn.close() wb.save(file_path) wb.close() # cmd命令:python3 F:\算法與結(jié)構(gòu)\網(wǎng)站權(quán)重.py F:\website.xlsx
三:腳本運(yùn)行及其實(shí)現(xiàn)結(jié)果
CMD執(zhí)行

數(shù)據(jù)庫(kù):

excel文件寫入:

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
tkinter動(dòng)態(tài)顯示時(shí)間的兩種實(shí)現(xiàn)方法
這篇文章主要介紹了tkinter動(dòng)態(tài)顯示時(shí)間的兩種實(shí)現(xiàn)方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-01-01
使用tensorflow DataSet實(shí)現(xiàn)高效加載變長(zhǎng)文本輸入
今天小編就為大家分享一篇使用tensorflow DataSet實(shí)現(xiàn)高效加載變長(zhǎng)文本輸入,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-01-01
Python應(yīng)用案例之利用opencv實(shí)現(xiàn)圖像匹配
OpenCV 是一個(gè)的跨平臺(tái)計(jì)算機(jī)視覺(jué)庫(kù),可以運(yùn)行在 Linux、Windows 和 Mac OS 操作系統(tǒng)上,這篇文章主要給大家介紹了關(guān)于Python應(yīng)用案例之利用opencv實(shí)現(xiàn)圖像匹配的相關(guān)資料,需要的朋友可以參考下2024-08-08
Python語(yǔ)言描述連續(xù)子數(shù)組的最大和
這篇文章主要介紹了Python語(yǔ)言描述連續(xù)子數(shù)組的最大和,具有一定借鑒價(jià)值,需要的朋友可以參考下2018-01-01
pyqt5 lineEdit設(shè)置密碼隱藏,刪除lineEdit已輸入的內(nèi)容等屬性方法
今天小編就為大家分享一篇pyqt5 lineEdit設(shè)置密碼隱藏,刪除lineEdit已輸入的內(nèi)容等屬性方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-06-06
Python編寫的com組件發(fā)生R6034錯(cuò)誤的原因與解決辦法
pythoncom27.dll可能沒(méi)有包含manifest信息,或者沒(méi)有包含正確的manifest信息,或者系統(tǒng)中的c++ runtime library受到破壞都有可能造成這種現(xiàn)象2013-04-04
python二分法查找算法實(shí)現(xiàn)方法【遞歸與非遞歸】
這篇文章主要介紹了python二分法查找算法實(shí)現(xiàn)方法,結(jié)合實(shí)例形式分析了Python使用遞歸與非遞歸算法實(shí)現(xiàn)二分查找的相關(guān)操作技巧,需要的朋友可以參考下2019-12-12
python計(jì)算最大優(yōu)先級(jí)隊(duì)列實(shí)例
python計(jì)算最大優(yōu)先級(jí)隊(duì)列實(shí)例,大家參考使用吧2013-12-12

