利用Python實現(xiàn)崗位的分析報告
前言
前兩篇我們分別爬取了糗事百科和妹子圖網(wǎng)站,學(xué)習(xí)了 Requests, Beautiful Soup 的基本使用。不過前兩篇都是從靜態(tài) HTML 頁面中來篩選出我們需要的信息。這一篇我們來學(xué)習(xí)下如何來獲取 Ajax 請求返回的結(jié)果。
本篇以拉勾網(wǎng)為例來說明一下如何獲取 Ajax 請求內(nèi)容
一、本文目標(biāo)
獲取 Ajax 請求,解析 JSON 中所需字段
數(shù)據(jù)保存到 Excel 中
數(shù)據(jù)保存到 MySQL, 方便分析
二、分析結(jié)果
1.引入庫
五個城市 Python 崗位平均薪資水平

Python 崗位要求學(xué)歷分布

Python 行業(yè)領(lǐng)域分布

Python 公司規(guī)模分布:

2.頁面結(jié)構(gòu)
我們輸入查詢條件以 Python 為例,其他條件默認(rèn)不選,點(diǎn)擊查詢,就能看到所有 Python 的崗位了,然后我們打開控制臺,點(diǎn)擊網(wǎng)絡(luò)標(biāo)簽可以看到如下請求:

從響應(yīng)結(jié)果來看,這個請求正是我們需要的內(nèi)容。后面我們直接請求這個地址就好了。從圖中可以看出 result 下面就是各個崗位信息。
到這里我們知道了從哪里請求數(shù)據(jù),從哪里獲取結(jié)果。但是 result 列表中只有第一頁 15 條數(shù)據(jù),其他頁面數(shù)據(jù)怎么獲取呢?
3.請求參數(shù)
我們點(diǎn)擊參數(shù)選項卡,如下:
發(fā)現(xiàn)提交了三個表單數(shù)據(jù),很明顯看出來 kd 就是我們搜索的關(guān)鍵詞,pn 就是當(dāng)前頁碼。first 默認(rèn)就行了,不用管它。剩下的事情就是構(gòu)造請求,來下載 30 個頁面的數(shù)據(jù)了。
4.構(gòu)造請求 解析數(shù)據(jù)
構(gòu)造請求很簡單,我們還是用 requests 庫來搞定。首先我們構(gòu)造出表單數(shù)據(jù)
data = {'first': 'true', 'pn': page, 'kd': lang_name}
之后用 requests 來請求url地址,解析得到的 JSON 數(shù)據(jù)就算大功告成了。由于拉勾對爬蟲限制比較嚴(yán)格,我們需要把瀏覽器中 headers 字段全部加上,而且把爬蟲間隔調(diào)大一點(diǎn),我后面設(shè)置的為 10-20s,然后就能正常獲取數(shù)據(jù)了。
import requests
def get_json(url, page, lang_name):
headers = {
'Host': 'www.lagou.com',
'Connection': 'keep-alive',
'Content-Length': '23',
'Origin': 'https://www.lagou.com',
'X-Anit-Forge-Code': '0',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'Accept': 'application/json, text/javascript, */*; q=0.01',
'X-Requested-With': 'XMLHttpRequest',
'X-Anit-Forge-Token': 'None',
'Referer': 'https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
}
data = {'first': 'false', 'pn': page, 'kd': lang_name}
json = requests.post(url, data, headers=headers).json()
list_con = json['content']['positionResult']['result']
info_list = []
for i in list_con:
info = []
info.append(i.get('companyShortName', '無'))
info.append(i.get('companyFullName', '無'))
info.append(i.get('industryField', '無'))
info.append(i.get('companySize', '無'))
info.append(i.get('salary', '無'))
info.append(i.get('city', '無'))
info.append(i.get('education', '無'))
info_list.append(info)
return info_list
4.獲取所有數(shù)據(jù)
了解了如何解析數(shù)據(jù),剩下的就是連續(xù)請求所有頁面了,我們構(gòu)造一個函數(shù)來請求所有 30 頁的數(shù)據(jù)。
def main():
lang_name = 'python'
wb = Workbook()
conn = get_conn()
for i in ['北京', '上海', '廣州', '深圳', '杭州']:
page = 1
ws1 = wb.active
ws1.title = lang_name
url = 'https://www.lagou.com/jobs/positionAjax.json?city={}&needAddtionalResult=false'.format(i)
while page < 31:
info = get_json(url, page, lang_name)
page += 1
import time
a = random.randint(10, 20)
time.sleep(a)
for row in info:
insert(conn, tuple(row))
ws1.append(row)
conn.close()
wb.save('{}職位信息.xlsx'.format(lang_name))
if __name__ == '__main__':
main()
總結(jié)
如果對數(shù)據(jù)庫不熟悉的同學(xué),直接注釋掉 main 函數(shù)中的三行數(shù)據(jù)庫代碼就行了,我在注釋中有說明是哪三行。
到此這篇關(guān)于利用Python實現(xiàn)崗位的分析報告的文章就介紹到這了,更多相關(guān)Python崗位分析內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python學(xué)生管理系統(tǒng)的實現(xiàn)
這篇文章主要為大家詳細(xì)介紹了python學(xué)生管理系統(tǒng)的實現(xiàn),文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下2020-04-04
selenium + python 獲取table數(shù)據(jù)的示例講解
今天小編就為大家分享一篇selenium + python 獲取table數(shù)據(jù)的示例講解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-10-10
Python?Requests使用Cookie的幾種方式詳解
這篇文章主要給大家介紹了關(guān)于Python?Requests使用Cookie的幾種方式,Python中的requests庫可以使用cookie來維持會話狀態(tài),實現(xiàn)登錄等操作,需要的朋友可以參考下2023-07-07
Pycharm中出現(xiàn)ImportError:DLL load failed:找不到指定模塊的解決方法
這篇文章主要介紹了Pycharm中出現(xiàn)ImportError:DLL load failed:找不到指定模塊的解決方法,需要的朋友可以參考下2019-09-09
pycharm使用matplotlib.pyplot不顯示圖形的解決方法
今天小編就為大家分享一篇pycharm使用matplotlib.pyplot不顯示圖形的解決方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-10-10
Django在urls.py利用函數(shù)path()配置路由時傳遞參數(shù)給調(diào)用的視圖函數(shù)的方法(推薦)
這篇文章主要介紹了Django在urls.py利用函數(shù)path()配置路由時傳遞參數(shù)給調(diào)用的視圖函數(shù)的方法(推薦),本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友參考下吧2024-01-01

